
de codescalebench14
Lancez, gérez et relancez les suites de benchmarks CodeScaleBench avec des garde-fous de sécurité, l'exécution couplée baseline+full et des utilitaires d'orchestration.
Cette compétence fournit une orchestration de bout en bout pour l'exécution des suites de benchmarks CodeScaleBench. Elle définit les commandes canoniques, les modèles de lancement et les étapes d'approbation obligatoires avant l'exécution. Elle prend en charge les exécutions couplées baseline+full, les relancements rapides des échecs, les exécutions de comblement de lacunes et l'exécution parallèle sur plusieurs comptes avec des outils pour surveiller et gérer les exécutions.
Utilisez cette compétence lorsque vous devez exécuter des suites de benchmarking, relancer des tâches échouées ou effectuer des expériences couplées organisées (baseline + sourcegraph_full). Elle ne doit être utilisée qu'après confirmation des paramètres clés : modèle, suite ou fichier de sélection, configuration d'exécution (couplée/baseline-uniquement/full-uniquement), slots de parallélisme et catégorie (staging/officiel).
Idéal pour les agents capables d'exécuter des commandes shell et de gérer des tâches de longue durée (agents avec des capacités Bash/Run). Il s'agit d'une compétence opérationnelle destinée à une exécution avec intervention humaine — la compétence exige explicitement la confirmation de l'utilisateur avant toute action destructive ou coûteuse.
Compétence d'exécution CodeScaleBench pour lancer et gérer des suites de benchmarks avec des garde-fous d'exécution baseline+MCP appariés. Aucun script joint à tester. SKILL.md est bien structuré avec une porte d'approbation obligatoire avant l'exécution, des modèles de commandes canoniques clairs et l'application d'une politique d'exécution. Outillage de niche spécifique au framework CodeScaleBench de Sourcegraph.
Compétence propre sans préoccupations de sécurité. La porte d'approbation obligatoire avant l'exécution est un bon modèle de sécurité. Aucun script inclus — SKILL.md purement instructionnel. Public de niche limité aux équipes exécutant des benchmarks CodeScaleBench.