Ce que fait cette compétence

Cette compétence fournit un harnais d'évaluation qui déploie un agent évaluateur distinct pour évaluer indépendamment les artefacts de code selon quatre axes : la précision fonctionnelle, la qualité du code, l'originalité et l'utilisabilité & sécurité. L'évaluateur produit un score numérique et un rapport écrit (EVAL_REPORT.md), avec des recommandations et un verdict pass/conditionnel/fail.

Quand l'utiliser

Utilisez-la lorsque vous avez besoin d'une évaluation automatisée et reproductible d'un code généré ou soumis — pour la notation, les vérifications CI ou les portes de qualité. Déclenchez-la sur des mots-clés comme eval, score de qualité, évaluation de code, ou lorsqu'un projet nécessite un passage de notation impartial avant fusion ou publication.

Ce qui est inclus

Scripts : aucun script intégré (has_scripts=false)
Références : pas de répertoire de références (has_references=false)
Instructions : étapes procédurales pour déployer un sous-agent évaluateur avec un prompt fixe, collecter le EVAL_REPORT.md, et optionnellement exécuter des vérifications de cohérence pass@k en répétant les évaluations pour mesurer la variance du score.

Agents compatibles

Conçue pour des systèmes multi-agents ou capables de sous-agents (agents pouvant déployer des sous-agents évaluateurs), et utile pour les assistants de développement et les bots intégrés à la CI (agents de type Claude, harnais acp, autres orchestrateurs).