Packages SKILL.md qui étendent Claude Code, Cursor, Copilot et autres agents IA.
Étiquettes

happycapy-skills
Exécute des requêtes parallèles sur plusieurs modèles et affiche les réponses côte à côte dans un tableau de bord en direct ; synthétise le consensus et gère le vote anonyme des modèles.

claude-superskills
Créez, améliorez et évaluez des compétences d'agent avec un flux guidé : capture de l'intention, rédaction de SKILL.md, exécution d'évaluations et de benchmarks, et optimisation de la description de déclenchement.

brain-in-the-fish
Évalue des documents selon des critères via un scoring multi-agent fondé sur l'ontologie pour produire des rapports d'évaluation auditable et étayés par des preuves.

reprompter
Transforme des prompts désordonnés en prompts structurés et évaluables ou en plans multi-agents ; permet également de rétro-concevoir des résultats exceptionnels en prompts réutilisables.

claude-plugins
Cadre d'évaluation et outils pour mesurer systématiquement les performances des LLM à l'aide de métriques automatisées, du jugement humain et de tests A/B.

tonone
Guide l'agent pour construire un pipeline ML reproductible : validation des données, pipeline de caractéristiques, entraînement, évaluation, service et surveillance.

my-cc-harness
Déploie un agent évaluateur indépendant pour noter les sorties de code sur la fonctionnalité, la qualité du code, l'originalité et l'utilisabilité/sécurité, produisant un rapport EVAL_REP structuré.

my-cc-harness
Évalue et score la santé globale d'un harnais Claude Code à travers l'architecture, la couverture des compétences, les hooks, les règles, les serveurs MCP, les pipelines d'évaluation et la configuration d'équipe.

skillattack
Extrait, importe et ajoute des résultats d'évaluation de modèles structurés aux fiches de modèles Hugging Face ; exécute ou importe des évaluations de benchmark et génère le YAML model-index.

Claude Code Skills
Fusionne et déduplique les résultats des travailleurs d'évaluation en un résumé de revue vérifié unique pour les coordinateurs, en appliquant une porte d'architecture et des contrôles de vérification.

awesome-omni-skill
Flux de travail guidé pour la rédaction, le test et l'itération des Agent Skills : rédaction du SKILL.md, exécution d'évaluations, notation des résultats et optimisation des descriptions pour améliorer la précision du déclenchement.

ai-driven-development
Techniques et modèles pour concevoir des prompts précis et fiables et des instructions agentiques pour divers LLM.

awesome-copilot
Créer, exécuter et analyser des expériences Arize pour évaluer et comparer les performances des modèles à l'aide de l'interface CLI ax.

DeepScientist
Cadrer des tâches de recherche ou d'ingénierie ambiguës : clarifier les objectifs, les métriques, les ensembles de données et établir une base de référence justifiée pour avancer avec confiance.

harbor
Échafauder, configurer et vérifier une tâche d'évaluation Harbor de bout en bout, y compris les prompts, l'environnement, la sélection du vérificateur et la solution Oracle.

ISC-Bench
Benchmark et pipeline pour évaluer la sécurité des modèles (Internal Safety Collapse) via le framework TVD ; construit des prompts, exécute des modèles et extrait le contenu nuisible.

sgo
Optimisez un produit, un CV, un pitch ou un profil face à des populations d'évaluateurs simulées via un score LLM et des sondes contre-factuelles pour identifier les changements améliorant les résultats.

ai-rig
Exécute des benchmarks synthétiques et des tests de calibration pour les agents et les skills : mesure le rappel, la précision, la calibration de la confiance et les comparaisons A/B pour quantifier les performances.

skill-creator-claw
Créez, testez et améliorez itérativement les compétences OpenClaw ; inclut des flux d'évaluation, des guides de cas de test et des outils d'empaquetage.

AutoPaperBot
Guide les agents IA dans la rédaction, la structuration et le polissage d'articles académiques pour les conférences de premier plan en IA/systèmes — de la construction de l'argumentation aux figures et évaluations.

code-abyss
Guide de référence pour la conception de systèmes LLM mono et multi-agents, pipelines RAG, durcissement de la sécurité et ingénierie de prompts pour agents de production.

opendatalab
Exécutez, validez et analysez les évaluations de parsing de documents OmniDocBench avec des flux Docker/conda et l'analyse des résultats.