Évaluation LLM

Score de confiance 80/100

Cadre d'évaluation et outils pour mesurer systématiquement les performances des LLM à l'aide de métriques automatisées, du jugement humain et de tests A/B.

déclencheurs:evaluate modelbleubertscorehuman evaluationa/b testregression detectionbenchmark

GitHub SKILL.md

Ce qu'il fait

Fournit un cadre pratique et des exemples de code pour évaluer les applications LLM : métriques automatisées (BLEU, ROUGE, BERTScore, perplexité), métriques de classification et de récupération, directives d'évaluation humaine, modèles LLM-as-judge, tests A/B et détection de régression. Comprend des extraits Python pour les calculs de métriques et les flux de benchmarking.

Quand l'utiliser

Utilisez cette compétence lorsque vous devez valider les performances d'un modèle, comparer des prompts ou des modèles, détecter des régressions avant le déploiement, exécuter des suites de benchmarks, ou mettre en place des tâches d'annotation humaine et des tests A/B. Idéal pour l'intégration CI/CD et le reporting.

Ce qui est inclus

Scripts : Exemples de scripts d'évaluation et d'extraits (BLEU, ROUGE, BERTScore, tests AB) inclus directement dans le fichier SKILL.md.
Références : Les liens vers les modèles d'évaluation et les ressources sont notés dans la compétence (assets/evaluation-framework.py, scripts/evaluate-model.py).
Instructions : Guide étape par étape pour construire un pipeline d'évaluation, exécuter des métriques, construire des tâches d'annotation humaine et intégrer des modèles de juge LLM.

Agents compatibles

Compatible avec les agents capables d'exécuter des extraits Python et d'appeler des API web ou de modèles (agents de style Copilot/Codex, Claude Code, Gemini lorsque l'exécution Python est supportée).

Étiquettes

#evaluation #llm #metrics #benchmarking #human-evaluation #a-b-testing #regression-testing #nlp #bert-score

Aucun script exécutéAudité le April 27, 2026

Résumé de l'audit

LLM Evaluation est une compétence de style référence fournissant des extraits de code et des conseils conceptuels pour évaluer les sorties de LLM à l'aide de métriques automatisées (BLEU, ROUGE, BERTScore), l'évaluation humaine, les modèles LLM-as-judge et les tests A/B. Elle ne contient pas de scripts exécutables — tout le code consiste en des extraits Python intégrés dans le corps du SKILL.md. Le contenu est bien organisé et pédagogique, mais agit davantage comme un aide-mémoire que comme une compétence actionnable qu'un agent peut exécuter.

Points d'attention

Aucun script exécutable — contenu purement de référence/connaissance
Fichiers de référence dans references/ et assets/ qui n'existent pas dans le dépôt (metrics.md, evaluation-framework.py, etc.)
Les extraits de code utilisent l'API OpenAI obsolète (openai.ChatCompletion.create)

Notes

C'est essentiellement un article de base de connaissances packagé comme une compétence. Aucun problème de sécurité — pas de scripts, pas d'appels réseau, pas d'identifiants. La qualité du code est correcte pour des extraits, mais ils ne sont pas exécutables tels quels. L'architecture suit le frontmatter de base mais place tout le contenu dans le corps du SKILL.md sans fichiers de support. Utile comme matériel de référence, mais limité en tant que compétence d'agent exécutable.

Informations

Dépôt: claude-plugins
Étoiles: 32

Score de confiance

Global80

Sécurité100

Qualité du code62

Architecture55

Utilité58

Compétences similaires

Yielding Bear — Unified LLM Routing

A unified LLM routing API that automatically routes requests to the cheapest capable model across providers to reduce inference cost by ~60-80%.

Markdrop

Convert PDFs to structured Markdown or interactive HTML and generate AI-powered descriptions for images and tables using multiple LLM providers.

arxiv2md

Convert arXiv papers into clean, LLM-ready Markdown via a REST API or CLI for fast reading, summarization, and downstream processing.

Generate Multilingual Sentences with Contextual Definitions

Produce multiple example sentences using a target word in varied meanings, translate them into a target language, and show the contextual meaning of the word fo

Cross-Project Analytics

Query local, privacy-safe cross-project analytics to report on agent, skill, hook, and team performance; replay sessions and estimate token costs.

Humanize AI Text

Rewrite AI-generated text into more natural, human-like prose using the HumanizerAI API, with before/after scores and credit tracking.

DSPy — Declarative LM Programming

Use DSPy to build declarative, modular LM pipelines, optimize prompts automatically, and assemble reliable RAG/agent systems with structured signatures and opti

Synalinks Framework

Keras-inspired framework for building structured, neuro-symbolic LLM programs with DataModel schemas, modular Programs, and training/optimization tools.

Retour aux compétences