Exécuter des Benchmarks

Name: Exécuter des Benchmarks
Rating: 87 (1 reviews)
Author: sourcegraph

Score de confiance 87/100

Lancez, gérez et relancez les suites de benchmarks CodeScaleBench avec des garde-fous de sécurité, l'exécution couplée baseline+full et des utilitaires d'orchestration.

déclencheurs:run benchmarkslaunch benchmark suitererun failurespaired runquick rerun

GitHub SKILL.md

Ce que cela fait

Cette compétence fournit une orchestration de bout en bout pour l'exécution des suites de benchmarks CodeScaleBench. Elle définit les commandes canoniques, les modèles de lancement et les étapes d'approbation obligatoires avant l'exécution. Elle prend en charge les exécutions couplées baseline+full, les relancements rapides des échecs, les exécutions de comblement de lacunes et l'exécution parallèle sur plusieurs comptes avec des outils pour surveiller et gérer les exécutions.

Quand l'utiliser

Utilisez cette compétence lorsque vous devez exécuter des suites de benchmarking, relancer des tâches échouées ou effectuer des expériences couplées organisées (baseline + sourcegraph_full). Elle ne doit être utilisée qu'après confirmation des paramètres clés : modèle, suite ou fichier de sélection, configuration d'exécution (couplée/baseline-uniquement/full-uniquement), slots de parallélisme et catégorie (staging/officiel).

Ce qui est inclus

Scripts : le dépôt contient des scripts d'orchestration et d'exécution (configs/harnesses/*, scripts/running/control_plane.py, scripts de surveillance) bien qu'ils ne soient pas regroupés dans la récupération de la compétence (has_scripts=false dans ce scan).
Références : des références de documentation telles que docs/DAYTONA.md et les scripts du plan de contrôle sont mentionnés dans le corps de la compétence.
Instructions : le fichier SKILL.md définit des politiques (approbation obligatoire), des commandes canoniques pour les exécutions couplées et les relancements, et des vérifications d'infrastructure (santé du compte) à effectuer avant le lancement.

Agents compatibles

Idéal pour les agents capables d'exécuter des commandes shell et de gérer des tâches de longue durée (agents avec des capacités Bash/Run). Il s'agit d'une compétence opérationnelle destinée à une exécution avec intervention humaine — la compétence exige explicitement la confirmation de l'utilisateur avant toute action destructive ou coûteuse.

Étiquettes

#benchmarking #orchestration #devops #performance #automation #rerun #monitoring

Aucun script exécutéAudité le May 30, 2026

Résumé de l'audit

Compétence d'exécution CodeScaleBench pour lancer et gérer des suites de benchmarks avec des garde-fous d'exécution baseline+MCP appariés. Aucun script joint à tester. SKILL.md est bien structuré avec une porte d'approbation obligatoire avant l'exécution, des modèles de commandes canoniques clairs et l'application d'une politique d'exécution. Outillage de niche spécifique au framework CodeScaleBench de Sourcegraph.

Points d'attention

Lié à l'écosystème CodeScaleBench de Sourcegraph — nécessite que ce dépôt soit cloné localement
Référence des scripts externes (./configs/harnesses/) qui ne sont pas joints à la compétence

Notes

Compétence propre sans préoccupations de sécurité. La porte d'approbation obligatoire avant l'exécution est un bon modèle de sécurité. Aucun script inclus — SKILL.md purement instructionnel. Public de niche limité aux équipes exécutant des benchmarks CodeScaleBench.

Informations

Dépôt: codescalebench
Étoiles: 14

Score de confiance

Global87

Sécurité95

Qualité du code78

Architecture80

Utilité35

Compétences similaires

Development Worktree

Create an isolated git worktree for feature work, auto-run project setup, and verify a clean test baseline before development.

ds-fix — data-science mid-analysis fixer

Orchestrates diagnosis and targeted fixes mid-analysis: diagnose root cause, apply fixes with output-first verification, and update project learnings.

Readwise Reader Document Management

Manage Readwise Reader documents: list, save, search, move, tag, highlight, export and bulk-edit via official and custom CLIs.

Bounty Hunter — Atlas

Persona skill: 'Atlas' — a profit-focused developer persona for discovering, evaluating and executing paid bounties or freelance tasks with ROI-aware workflows.

Junshi — Research Advisor

Daily strategic research advisor that scans arXiv/venues, digests papers, and proposes bold, ranked research ideas tailored to the user's profile.

Full Stack Builder

End-to-end builder that scaffolds, implements, tests, and optionally deploys web and API applications from a natural-language specification.

ezBookkeeping API Tools

Command-line API tools for ezBookkeeping: record and query transactions, retrieve accounts/categories/tags, and fetch exchange rates for self-hosted personal fi

Feishu Voice Sender

Convert MP3s and send them as native Feishu voice messages (playable voice clips) to users or groups.

Retour aux compétences