
de harbor1,981
Échafauder, configurer et vérifier une tâche d'évaluation Harbor de bout en bout, y compris les prompts, l'environnement, la sélection du vérificateur et la solution Oracle.
Guide les utilisateurs dans la création d'une tâche Harbor complète pour l'évaluation d'agents. Il détaille l'échafaudage de la mise en page de la tâche, la rédaction de instruction.md, la construction de l'environnement d'exécution (Dockerfile ou docker-compose), la sélection et l'écriture des vérificateurs (pytest, Reward Kit, ou shell personnalisé), la rédaction d'une solution Oracle, et la configuration de task.toml et du README pour la découvrabilité. Le guide met l'accent sur la conception des vérificateurs et des conseils pratiques pour l'exécution d'Oracle et d'essais multi-étapes.
Utilisez cette compétence lorsque vous devez créer ou améliorer une évaluation d'agent : nouvelles tâches de benchmark, tâches multi-étapes progressives, ou flux de vérification reproductibles. Elle est particulièrement utile pour choisir comment noter les agents (vérificateur séparé vs environnement partagé), ajouter des juges Reward Kit, ou préparer des tâches pour la vérification Oracle.
Fonctionne avec les agents et les outils qui s'exécutent dans des bacs à sable conteneurisés et supportent l'orchestration via la CLI Harbor et les vérificateurs de style Reward Kit (par exemple, les agents pilotés par CLI, les harnais d'évaluation et les juges LLM pouvant être invoqués par Reward Kit).
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.