NeMo Evaluator

Transformez une grille d'évaluation et un ensemble de données en une évaluation reproductible à l'aide du SDK NeMo Evaluator ; générez des configurations, exécutez des évaluations locales et expliquez les scores et les échecs.

déclencheurs:neMo evaluatorrubric to evalbenchmark reproductionevaluation configevaluator.runmetric selection

GitHub SKILL.md

Ce qu'il fait

NeMo Evaluator transforme les grilles d'experts et les ensembles de données de référence en évaluations reproductibles. Il mappe les critères de la grille aux primitives de métriques du SDK, génère des configurations et des artefacts révisables par l'humain, exécute des évaluations locales ou distantes, et explique les résultats au niveau de la ligne et agrégés avec des conseils de dépannage.

Quand l'utiliser

Utilisez-le lorsque vous avez besoin d'un pipeline d'évaluation reproductible et auditable pour des benchmarks de modèles ou de systèmes : vérifications de la qualité du juge, tests de qualité de génération, évaluations RAG/appel d'outils, ou reproduction de vos propres benchmarks. Idéal pour les ingénieurs ML, les responsables de l'évaluation ou les équipes plateforme.

Ce qui est inclus

Scripts : aucun (skill basée sur le SDK ; nécessite que le SDK NeMo Platform soit disponible)
Références : references/metric-selection.md, references/sdk-execution.md, references/benchmark-reproduction.md, references/troubleshooting.md
Instructions : comment choisir les classes de métriques, construire des ensembles de données minimaux, exécuter des tests locaux Evaluator().run_sync(...), inspecter les row_scores et les sorties agrégées, et passer aux jobs distants une fois stables.

Agents compatibles

Conçu pour les agents compatibles SDK et les flux de travail d'outils de développement (NeMo Platform basé sur Python, pipelines pilotés par CLI, et agents assistants capables de présenter des extraits de SDK).

Étiquettes

#evaluation #benchmarking #nemo #ml-eval #rubric #sdk #llm-evaluation #reproducibility

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: nemo-platform
Étoiles: 44
Installations: 0

Compétences similaires

Sandbox0 Integration

Guidance and templates for integrating Sandbox0 sandboxing into AI agents — CLI/SDK patterns, templates, volumes, network policy, and deployment choices.

Clerk Vue Patterns

Vue 3 integration patterns for Clerk: composables, router guards, and Pinia auth store integration.

Stellar iOS & Mac SDK

Native Swift SDK and guidance for building Stellar blockchain apps on iOS/macOS: transaction building, signing, Horizon queries, Soroban RPC, XDR handling, and

CTF Write-up Generator

Generate a concise, reproducible submission-style CTF writeup with a one-path solution script, metadata, and a short checklist for fast verification.

Minimal Run & Audit (repro reporting)

Execute a README-first smoke test and produce standardized reproducibility outputs (`repro_outputs/`) and PATCHES.md — trusted reporting for repo reproduction r

Sendly SMS — Sending SMS

Send transactional or marketing SMS using the Sendly API or Node SDK; supports single, batch, scheduled sends, sandbox testing, and conversation threading.

Skyvern — AI Browser Automation

Cloud-first AI browser automation platform and SDKs for extracting data, filling forms, downloading files, and running multi-step web workflows from agents or c

Supabase SDK Patterns (TypeScript & Python)

Production-ready patterns for using Supabase clients in TypeScript and Python: client initialization, typed queries, auth, realtime, storage, RPC, and error-han

Retour aux compétences