
de nemo-platform44
Transformez une grille d'évaluation et un ensemble de données en une évaluation reproductible à l'aide du SDK NeMo Evaluator ; générez des configurations, exécutez des évaluations locales et expliquez les scores et les échecs.
NeMo Evaluator transforme les grilles d'experts et les ensembles de données de référence en évaluations reproductibles. Il mappe les critères de la grille aux primitives de métriques du SDK, génère des configurations et des artefacts révisables par l'humain, exécute des évaluations locales ou distantes, et explique les résultats au niveau de la ligne et agrégés avec des conseils de dépannage.
Utilisez-le lorsque vous avez besoin d'un pipeline d'évaluation reproductible et auditable pour des benchmarks de modèles ou de systèmes : vérifications de la qualité du juge, tests de qualité de génération, évaluations RAG/appel d'outils, ou reproduction de vos propres benchmarks. Idéal pour les ingénieurs ML, les responsables de l'évaluation ou les équipes plateforme.
references/metric-selection.md, references/sdk-execution.md, references/benchmark-reproduction.md, references/troubleshooting.mdConçu pour les agents compatibles SDK et les flux de travail d'outils de développement (NeMo Platform basé sur Python, pipelines pilotés par CLI, et agents assistants capables de présenter des extraits de SDK).
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.