
de ai-rig9
Exécute des benchmarks synthétiques et des tests de calibration pour les agents et les skills : mesure le rappel, la précision, la calibration de la confiance et les comparaisons A/B pour quantifier les performances.
Calibrate est un skill de benchmarking et de calibration qui génère des problèmes synthétiques avec une quasi-vérité terrain, exécute des agents/skills cibles contre ceux-ci et mesure des signaux clés : le rappel, la précision de la sévérité, le formatage/l'actionnabilité et la calibration de la confiance. Il permet des comparaisons A/B par rapport à une ligne de base polyvalente et produit des résumés JSON compacts ainsi que des propositions lisibles par l'humain pour l'amélioration des instructions. Le flux de travail privilégie des pipelines séquentiels et groupés pour éviter les pics de ressources et retourne des fichiers de résultats concis et faciles à auditer.
Utilisez Calibrate avant et après des modifications majeures d'instructions ou de prompts système, lors de l'ajout de nouveaux agents spécialistes, ou pour valider si la confiance auto-déclarée d'un agent correspond à ses performances réelles. Il est utile pour les auteurs de plugins et les équipes d'exploitation qui ont besoin de benchmarks reproductibles et d'une boucle d'amélioration actionnable (propositions, application, réexécution).
.claude/logs/calibrations.jsonl.Conçu pour les environnements capables de créer des sous-agents et d'exécuter des pipelines basés sur des fichiers (agents de fonderie basés sur Claude, exécuteurs Codex). Fonctionne avec des scoreurs polyvalents et des scoreurs Codex dans des configurations de double évaluation. Idéal pour les environnements de type Claude Code / foundry où existent des primitives d'Agent/Tâche.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.