
de codescalebench14
Lancez, gérez et relancez les suites de benchmarks CodeScaleBench avec des garde-fous de sécurité, l'exécution couplée baseline+full et des utilitaires d'orchestration.
Cette compétence fournit une orchestration de bout en bout pour l'exécution des suites de benchmarks CodeScaleBench. Elle définit les commandes canoniques, les modèles de lancement et les étapes d'approbation obligatoires avant l'exécution. Elle prend en charge les exécutions couplées baseline+full, les relancements rapides des échecs, les exécutions de comblement de lacunes et l'exécution parallèle sur plusieurs comptes avec des outils pour surveiller et gérer les exécutions.
Utilisez cette compétence lorsque vous devez exécuter des suites de benchmarking, relancer des tâches échouées ou effectuer des expériences couplées organisées (baseline + sourcegraph_full). Elle ne doit être utilisée qu'après confirmation des paramètres clés : modèle, suite ou fichier de sélection, configuration d'exécution (couplée/baseline-uniquement/full-uniquement), slots de parallélisme et catégorie (staging/officiel).
Idéal pour les agents capables d'exécuter des commandes shell et de gérer des tâches de longue durée (agents avec des capacités Bash/Run). Il s'agit d'une compétence opérationnelle destinée à une exécution avec intervention humaine — la compétence exige explicitement la confirmation de l'utilisateur avant toute action destructive ou coûteuse.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.