OpenJudge — Pipeline d'évaluation LLM

Outils et modèles pour construire des pipelines d'évaluation automatisés pour les LLM : évaluateurs, exécuteurs, agrégateurs et utilitaires d'analyse pour comparer les sorties des modèles et les scores.

déclencheurs:evaluate modelgrading runnergraderwin ratesautomated evaluationopenjudgegrading

GitHub SKILL.md

Ce que fait ce skill

OpenJudge fournit une architecture et un outillage pour créer des pipelines d'évaluation reproductibles pour les applications LLM. Il standardise les évaluateurs (basés sur LLM ou sur fonctions), orchestre les exécutions par lots avec un GradingRunner, agrège les scores et fournit des analyseurs pour les taux de victoire (win-rates) et les mesures de validation.

Quand l'utiliser

Utilisez ce skill lorsque vous devez comparer les sorties de modèles, valider des réponses par rapport à des références, auto-générer des évaluateurs à partir de données étiquetées, ou produire des statistiques pour la sélection de modèles et la modélisation de récompense (reward modelling). Idéal pour la recherche, les évaluations d'alignement et l'AQ de production.

Ce qui est inclus

Scripts : aucun script de premier niveau listé (has_scripts=false) mais des documents d'accompagnement existent dans le repo (pipeline.md, graders.md, analyzer.md, generator.md).
Références : des documents supplémentaires dans des fichiers frères décrivent la configuration des évaluateurs et les modèles d'analyse.
Instructions : exemple de démarrage rapide démontrant la config du modèle, l'instanciation de l'évaluateur et l'exécution du GradingRunner sur un jeu de données, ainsi que des détails sur la gestion des résultats et la configuration du modèle.

Agents compatibles

Idéal pour les agents orientés développeurs et l'outillage capable d'exécuter du code Python et d'appeler des API de modèles (points de terminaison compatibles OpenAI, points de terminaison LLM locaux). Fonctionne avec des agents supportant des flux d'évaluation programmatiques.

Étiquettes

#evaluation #grader #llm #rlhf #qa #metrics #automation #research #open-source

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: openjudge
Étoiles: 639

Compétences similaires

Development Worktree

Create an isolated git worktree for feature work, auto-run project setup, and verify a clean test baseline before development.

WRDS Query & ETL Enforcement

Standards and enforcement guidance for querying WRDS data and running SAS/ETL on the WRDS grid—includes query validation, SGE submission patterns, and performan

Academic Research Search

Search academic literature across multiple sources, deduplicate results, resolve DOIs, and surface trusted papers with concise takeaways.

Readwise Reader Document Management

Manage Readwise Reader documents: list, save, search, move, tag, highlight, export and bulk-edit via official and custom CLIs.

Bounty Hunter — Atlas

Persona skill: 'Atlas' — a profit-focused developer persona for discovering, evaluating and executing paid bounties or freelance tasks with ROI-aware workflows.

Junshi — Research Advisor

Daily strategic research advisor that scans arXiv/venues, digests papers, and proposes bold, ranked research ideas tailored to the user's profile.

Full Stack Builder

End-to-end builder that scaffolds, implements, tests, and optionally deploys web and API applications from a natural-language specification.

ezBookkeeping API Tools

Command-line API tools for ezBookkeeping: record and query transactions, retrieve accounts/categories/tags, and fetch exchange rates for self-hosted personal fi

Retour aux compétences