Créer une tâche Harbor

Score de confiance 93/100

Échafauder, configurer et vérifier une tâche d'évaluation Harbor de bout en bout, y compris les prompts, l'environnement, la sélection du vérificateur et la solution Oracle.

déclencheurs:create taskharbor task initscaffold taskrewardkitoracle verification

GitHub SKILL.md

Ce que cela fait

Guide les utilisateurs dans la création d'une tâche Harbor complète pour l'évaluation d'agents. Il détaille l'échafaudage de la mise en page de la tâche, la rédaction de instruction.md, la construction de l'environnement d'exécution (Dockerfile ou docker-compose), la sélection et l'écriture des vérificateurs (pytest, Reward Kit, ou shell personnalisé), la rédaction d'une solution Oracle, et la configuration de task.toml et du README pour la découvrabilité. Le guide met l'accent sur la conception des vérificateurs et des conseils pratiques pour l'exécution d'Oracle et d'essais multi-étapes.

Quand l'utiliser

Utilisez cette compétence lorsque vous devez créer ou améliorer une évaluation d'agent : nouvelles tâches de benchmark, tâches multi-étapes progressives, ou flux de vérification reproductibles. Elle est particulièrement utile pour choisir comment noter les agents (vérificateur séparé vs environnement partagé), ajouter des juges Reward Kit, ou préparer des tâches pour la vérification Oracle.

Ce qui est inclus

Scripts : aucun script packagé dans la compétence (has_scripts=false)
Références : aucune référence incluse (has_references=false)
Instructions : guide procédural détaillé couvrant l'échafaudage (harbor task init), les modèles de Dockerfile d'environnement, les options de vérificateurs (Reward Kit, pytest, shell personnalisé), les formats de fichiers de récompense, la vérification Oracle, les mises en page multi-étapes et les exigences du README. Des exemples pratiques et des modèles sont fournis dans le corps de la compétence.

Agents compatibles

Fonctionne avec les agents et les outils qui s'exécutent dans des bacs à sable conteneurisés et supportent l'orchestration via la CLI Harbor et les vérificateurs de style Reward Kit (par exemple, les agents pilotés par CLI, les harnais d'évaluation et les juges LLM pouvant être invoqués par Reward Kit).

Étiquettes

#evaluation #harbor #tasks #verifier #rewardkit #pytest #docker #oracle #multi-step

Aucun script exécutéAudité le June 24, 2026

Résumé de l'audit

Compétence bien conçue pour l'échafaudage des tâches d'évaluation Harbor. Aucun script groupé — SKILL.md purement pédagogique. Couvre tout le cycle de vie, de l'initialisation à la vérification Oracle, avec trois options de vérificateur (Reward Kit, pytest, shell personnalisé) et une configuration détaillée de la politique réseau. La section sur les pièges courants est un plus appréciable. Frontmatter propre avec déclencheurs spécifiques et indice d'argument.

Points d'attention

Nécessite que le CLI Harbor soit installé et configuré
La section des tâches en plusieurs étapes fait référence à des documents non inclus dans la compétence elle-même

Notes

Aucun script à exécuter ou à auditer. SKILL.md est uniquement de la documentation, guidant l'agent à travers un flux de travail CLI en plusieurs étapes. Aucune préoccupation de sécurité. La compétence est approfondie et bien structurée — l'une des mieux écrites rencontrées.

Informations

Dépôt: harbor
Étoiles: 1,981

Score de confiance

Global93

Sécurité100

Qualité du code88

Architecture85

Utilité72

Plus de harbor

Publication Harbor

Guide et tutoriel pour publier des tâches ou des jeux de données sur le registre Harbor, incluant les vérifications d'authentification, l'initialisation des manifestes, la synchronisation et les commandes de publication.

Compétences similaires

Sync Production Database to Development

Run a safe, scripted workflow to download production database dumps and restore them into a development environment (download-only and restore options).

mog — Microsoft Ops Gadget

Command-line toolkit for Microsoft 365 (Mail, Calendar, OneDrive, Contacts, Tasks, Word, PowerPoint, Excel, OneNote) with slug and multi-account support.

Pytest Plugins Guide

Guidance on the pytest plugin ecosystem: plugin development, pytest-cov, pytest-mock, configuration, CI integration, and advanced patterns.

Docker Compose Generator

Generate and validate Docker Compose files for multi-container apps with templates, best-practice guidance, and deployment/runbook outputs.

Code Audit

Perform professional code security audits across 9 languages with configurable quick/standard/deep modes and Docker-backed verification.

Zero-Knowledge Proofs (Stellar/Soroban)

Guidance and patterns for integrating zero-knowledge proofs and privacy-preserving primitives into Stellar/Soroban smart contracts.

Harness Health Audit

Assess and score the overall health of a Claude Code harness across architecture, skills coverage, hooks, rules, MCP servers, eval pipelines, and team setup.

LLM Evaluation

Evaluation framework and tools for systematically measuring LLM performance using automated metrics, human judgment, and A/B testing.

Retour aux compétences