
de aec-bench23
Construisez et validez interactivement des configurations experiment.yaml pour les benchmarks d'IA, incluant la sélection des tâches et des agents.
Cette compétence fournit un flux de travail structuré et interactif pour créer des fichiers de configuration experiment.yaml pour l'outil AEC Bench. Elle guide l'utilisateur à travers le processus de sélection des tâches, le choix des agents et des modèles d'IA, et la définition des paramètres d'exécution pour garantir un run de benchmark valide.
Utilisez cette compétence lorsqu'un utilisateur souhaite lancer une nouvelle expérience de benchmark, modifier une configuration existante ou planifier un essai avec un aperçu de simulation (dry run).
aec-bench.toml), la sélection des tâches via des jeux de données ou le scan du disque, la configuration de l'agent (incluant la sélection du modèle via une matrice de compatibilité) et les paramètres d'exécution.Conçue pour les agents capables d'exécuter des commandes shell et de lire/écrire des fichiers YAML, tels que Claude Code ou des agents IDE autonomes similaires.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.