
de claude-superskills23
Créez, améliorez et évaluez des compétences d'agent avec un flux guidé : capture de l'intention, rédaction de SKILL.md, exécution d'évaluations et de benchmarks, et optimisation de la description de déclenchement.
Un flux complet d'auteur et d'évaluation pour les compétences d'agent. Guide l'auteur à travers l'entretien de l'utilisateur, la rédaction du contenu de SKILL.md, la création de cas de test, l'exécution d'évaluations avec compétence et de base, la notation des résultats et la production d'un rapport de réviseur et d'un benchmark. Inclut également des outils pour itérer sur les descriptions afin d'améliorer la précision du déclenchement.
Utilisez cette compétence lorsque vous devez créer une nouvelle compétence d'agent à partir d'une conversation utilisateur, améliorer un SKILL.md existant, exécuter des évaluations et des benchmarks reproductibles, ou optimiser le frontmatter et les déclencheurs d'une compétence pour une meilleure activation. Utile lorsque vous voulez des cas de test structurés, une notation reproductible et un réviseur HTML pour le retour humain.
Idéal pour les agents supportant les sous-agents et l'exécution de scripts (Claude Code, agents capables de CLI, environnements pouvant exécuter Python).
Comprehensive skill-creator workflow for building, evaluating, and iterating on agent skills. Includes eval framework with A/B testing, description optimization loop, and HTML report generation. Scripts are well-structured but most fail outside the repo context due to module path assumptions (from scripts.X import Y) and missing anthropic dependency. Only utils.py runs standalone cleanly.
anthropicWell-designed skill with clear progressive disclosure. SKILL.md is thorough with good instructions for both creating and improving skills. The eval/benchmark infrastructure is sophisticated. Main issue is scripts not designed to run independently — they assume repo-root execution context.