
de claude-plugins32
Cadre d'évaluation et outils pour mesurer systématiquement les performances des LLM à l'aide de métriques automatisées, du jugement humain et de tests A/B.
Fournit un cadre pratique et des exemples de code pour évaluer les applications LLM : métriques automatisées (BLEU, ROUGE, BERTScore, perplexité), métriques de classification et de récupération, directives d'évaluation humaine, modèles LLM-as-judge, tests A/B et détection de régression. Comprend des extraits Python pour les calculs de métriques et les flux de benchmarking.
Utilisez cette compétence lorsque vous devez valider les performances d'un modèle, comparer des prompts ou des modèles, détecter des régressions avant le déploiement, exécuter des suites de benchmarks, ou mettre en place des tâches d'annotation humaine et des tests A/B. Idéal pour l'intégration CI/CD et le reporting.
Compatible avec les agents capables d'exécuter des extraits Python et d'appeler des API web ou de modèles (agents de style Copilot/Codex, Claude Code, Gemini lorsque l'exécution Python est supportée).
LLM Evaluation est une compétence de style référence fournissant des extraits de code et des conseils conceptuels pour évaluer les sorties de LLM à l'aide de métriques automatisées (BLEU, ROUGE, BERTScore), l'évaluation humaine, les modèles LLM-as-judge et les tests A/B. Elle ne contient pas de scripts exécutables — tout le code consiste en des extraits Python intégrés dans le corps du SKILL.md. Le contenu est bien organisé et pédagogique, mais agit davantage comme un aide-mémoire que comme une compétence actionnable qu'un agent peut exécuter.
C'est essentiellement un article de base de connaissances packagé comme une compétence. Aucun problème de sécurité — pas de scripts, pas d'appels réseau, pas d'identifiants. La qualité du code est correcte pour des extraits, mais ils ne sont pas exécutables tels quels. L'architecture suit le frontmatter de base mais place tout le contenu dans le corps du SKILL.md sans fichiers de support. Utile comme matériel de référence, mais limité en tant que compétence d'agent exécutable.