
de openjudge639
Outils et modèles pour construire des pipelines d'évaluation automatisés pour les LLM : évaluateurs, exécuteurs, agrégateurs et utilitaires d'analyse pour comparer les sorties des modèles et les scores.
OpenJudge fournit une architecture et un outillage pour créer des pipelines d'évaluation reproductibles pour les applications LLM. Il standardise les évaluateurs (basés sur LLM ou sur fonctions), orchestre les exécutions par lots avec un GradingRunner, agrège les scores et fournit des analyseurs pour les taux de victoire (win-rates) et les mesures de validation.
Utilisez ce skill lorsque vous devez comparer les sorties de modèles, valider des réponses par rapport à des références, auto-générer des évaluateurs à partir de données étiquetées, ou produire des statistiques pour la sélection de modèles et la modélisation de récompense (reward modelling). Idéal pour la recherche, les évaluations d'alignement et l'AQ de production.
Idéal pour les agents orientés développeurs et l'outillage capable d'exécuter du code Python et d'appeler des API de modèles (points de terminaison compatibles OpenAI, points de terminaison LLM locaux). Fonctionne avec des agents supportant des flux d'évaluation programmatiques.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.