Configurateur d'Expériences AEC Bench

Construisez et validez interactivement des configurations experiment.yaml pour les benchmarks d'IA, incluant la sélection des tâches et des agents.

déclencheurs:configure experimentset up an experimentplan a benchmarkcreate experiment.yaml

GitHub SKILL.md

Ce qu'il fait

Cette compétence fournit un flux de travail structuré et interactif pour créer des fichiers de configuration experiment.yaml pour l'outil AEC Bench. Elle guide l'utilisateur à travers le processus de sélection des tâches, le choix des agents et des modèles d'IA, et la définition des paramètres d'exécution pour garantir un run de benchmark valide.

Quand l'utiliser

Utilisez cette compétence lorsqu'un utilisateur souhaite lancer une nouvelle expérience de benchmark, modifier une configuration existante ou planifier un essai avec un aperçu de simulation (dry run).

Ce qui est inclus

Références : Inclut les schémas de manifeste et les matrices agent-fournisseur pour garantir la compatibilité.
Instructions : Un processus en plusieurs étapes couvrant la détection du contexte (vérification de aec-bench.toml), la sélection des tâches via des jeux de données ou le scan du disque, la configuration de l'agent (incluant la sélection du modèle via une matrice de compatibilité) et les paramètres d'exécution.

Agents compatibles

Conçue pour les agents capables d'exécuter des commandes shell et de lire/écrire des fichiers YAML, tels que Claude Code ou des agents IDE autonomes similaires.

Étiquettes

#benchmarking #experiment-design #ai-evaluation #yaml-config #aec-bench

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: aec-bench
Étoiles: 23

Compétences similaires

LLM Evaluation

Evaluation framework and tools for systematically measuring LLM performance using automated metrics, human judgment, and A/B testing.

ROCm Triton Kernels (RMSNorm, RoPE 3D, GEGLU, AdaLN)

Guidance and examples for writing, benchmarking, and integrating optimized Triton kernels on ROCm (MI355X, R9700) for diffusers and transformers workloads.

Skill Creator

Create, improve, and evaluate Agent Skills with a guided workflow: capture intent, draft SKILL.md, run evals and benchmarks, and optimize triggering description

Performance Optimizer

Guides profiling and targeted optimizations for code and systems — measure, identify bottlenecks, and verify improvements across Python, Node, shell, and system

Hugging Face Evaluation Manager

Extract, import, and add structured model evaluation results to Hugging Face model cards; run or import benchmark evaluations and generate model-index YAML for

LLM Council

Run parallel queries across multiple LLMs with a live dashboard to compare outputs, synthesize consensus, and perform anonymous model voting.

TAO Performance Audit

Structured performance-audit methodology: measure, identify bottlenecks, optimize the true hotspot, and verify improvements with benchmarks.

Run Benchmarks

Launch, manage, and rerun CodeScaleBench benchmark suites with safety guardrails, paired baseline+full execution, and orchestration utilities.

Retour aux compétences