
de harbor1,981
Échafauder, configurer et vérifier une tâche d'évaluation Harbor de bout en bout, y compris les prompts, l'environnement, la sélection du vérificateur et la solution Oracle.
Guide les utilisateurs dans la création d'une tâche Harbor complète pour l'évaluation d'agents. Il détaille l'échafaudage de la mise en page de la tâche, la rédaction de instruction.md, la construction de l'environnement d'exécution (Dockerfile ou docker-compose), la sélection et l'écriture des vérificateurs (pytest, Reward Kit, ou shell personnalisé), la rédaction d'une solution Oracle, et la configuration de task.toml et du README pour la découvrabilité. Le guide met l'accent sur la conception des vérificateurs et des conseils pratiques pour l'exécution d'Oracle et d'essais multi-étapes.
Utilisez cette compétence lorsque vous devez créer ou améliorer une évaluation d'agent : nouvelles tâches de benchmark, tâches multi-étapes progressives, ou flux de vérification reproductibles. Elle est particulièrement utile pour choisir comment noter les agents (vérificateur séparé vs environnement partagé), ajouter des juges Reward Kit, ou préparer des tâches pour la vérification Oracle.
Fonctionne avec les agents et les outils qui s'exécutent dans des bacs à sable conteneurisés et supportent l'orchestration via la CLI Harbor et les vérificateurs de style Reward Kit (par exemple, les agents pilotés par CLI, les harnais d'évaluation et les juges LLM pouvant être invoqués par Reward Kit).
Compétence bien conçue pour l'échafaudage des tâches d'évaluation Harbor. Aucun script groupé — SKILL.md purement pédagogique. Couvre tout le cycle de vie, de l'initialisation à la vérification Oracle, avec trois options de vérificateur (Reward Kit, pytest, shell personnalisé) et une configuration détaillée de la politique réseau. La section sur les pièges courants est un plus appréciable. Frontmatter propre avec déclencheurs spécifiques et indice d'argument.
Aucun script à exécuter ou à auditer. SKILL.md est uniquement de la documentation, guidant l'agent à travers un flux de travail CLI en plusieurs étapes. Aucune préoccupation de sécurité. La compétence est approfondie et bien structurée — l'une des mieux écrites rencontrées.