Compétences d&#x27;agent

prompt-engineeringllmagentic

Ingénierie de Prompt

ai-driven-development

Techniques et modèles pour concevoir des prompts précis et fiables et des instructions agentiques pour divers LLM.

arizeexperimentsevaluation

Arize Experiment

awesome-copilot

Créer, exécuter et analyser des expériences Arize pour évaluer et comparer les performances des modèles à l'aide de l'interface CLI ax.

34,827

evaluationoptimizationllm

Optimisation du Gradient Sémantique (SGO)

sgo

Optimisez un produit, un CV, un pitch ou un profil face à des populations d'évaluateurs simulées via un score LLM et des sondes contre-factuelles pour identifier les changements améliorant les résultats.

evaluationomnidocbenchdocument-parsing

Assistant d'Évaluation OmniDocBench

opendatalab

Exécutez, validez et analysez les évaluations de parsing de documents OmniDocBench avec des flux Docker/conda et l'analyse des résultats.

authoringtestingevaluation

Skill Creator (Claw)

skill-creator-claw

Créez, testez et améliorez itérativement les compétences OpenClaw ; inclut des flux d'évaluation, des guides de cas de test et des outils d'empaquetage.

multi-modelmodel-comparisondashboard

LLM Council — Tableau de Bord de Consensus Multi-modèle

happycapy-skills

Exécute des requêtes parallèles sur plusieurs modèles et affiche les réponses côte à côte dans un tableau de bord en direct ; synthétise le consensus et gère le vote anonyme des modèles.

122

skill-authoringtestingevaluation

Skill Creator

my_arxiv_daily

Guide la création, le test et l'amélioration itérative des Agent Skills (SKILL.md), y compris l'exécution d'évaluations, la génération de benchmarks et le packaging de bundles de compétences.

183

skill-authoringevaluationbenchmarking

Créateur de Skill

awesome-omni-skill

Flux de travail guidé pour la rédaction, le test et l'itération des Agent Skills : rédaction du SKILL.md, exécution d'évaluations, notation des résultats et optimisation des descriptions pour améliorer la précision du déclenchement.

skill-authoringevaluationbenchmarking

Créateur de Compétences

claude-superskills

Créez, améliorez et évaluez des compétences d'agent avec un flux guidé : capture de l'intention, rédaction de SKILL.md, exécution d'évaluations et de benchmarks, et optimisation de la description de déclenchement.

document-evaluationevidence-verificationmulti-agent

Brain in the Fish — Évaluation de Documents

brain-in-the-fish

Évalue des documents selon des critères via un scoring multi-agent fondé sur l'ontologie pour produire des rapports d'évaluation auditable et étayés par des preuves.

benchmarkingcalibrationevaluation

Calibrate — Analyse Comparative d'Agents et de Skills

ai-rig

Exécute des benchmarks synthétiques et des tests de calibration pour les agents et les skills : mesure le rappel, la précision, la calibration de la confiance et les comparaisons A/B pour quantifier les performances.

researchliterature-scoutingbaseline-discovery

Scout

DeepScientist

Cadrer des tâches de recherche ou d'ingénierie ambiguës : clarifier les objectifs, les métriques, les ensembles de données et établir une base de référence justifiée pour avancer avec confiance.

2,620

academic-writingpaper-writingresearch

Rédaction d'Articles Académiques

AutoPaperBot

Guide les agents IA dans la rédaction, la structuration et le polissage d'articles académiques pour les conférences de premier plan en IA/systèmes — de la construction de l'argumentation aux figures et évaluations.

Évaluation LLM

claude-plugins

Cadre d'évaluation et outils pour mesurer systématiquement les performances des LLM à l'aide de métriques automatisées, du jugement humain et de tests A/B.

evaluationllmmetrics

prompt-engineeringmulti-agentorchestration

RePrompter

reprompter

Transforme des prompts désordonnés en prompts structurés et évaluables ou en plans multi-agents ; permet également de rétro-concevoir des résultats exceptionnels en prompts réutilisables.

machine-learningml-pipelinemodel-training

Cortex — Constructeur de Pipeline ML

tonone

Guide l'agent pour construire un pipeline ML reproductible : validation des données, pipeline de caractéristiques, entraînement, évaluation, service et surveillance.

ISC-Bench

Benchmark et pipeline pour évaluer la sécurité des modèles (Internal Safety Collapse) via le framework TVD ; construit des prompts, exécute des modèles et extrait le contenu nuisible.

safetybenchmarkjailbreak

775

Conception de Systèmes d'Agents

code-abyss

Guide de référence pour la conception de systèmes LLM mono et multi-agents, pipelines RAG, durcissement de la sécurité et ingénierie de prompts pour agents de production.

agentsmulti-agentrag

218

evaluationtestingcode-quality

Harnais d'évaluation de code

my-cc-harness

Déploie un agent évaluateur indépendant pour noter les sorties de code sur la fonctionnalité, la qualité du code, l'originalité et l'utilisabilité/sécurité, produisant un rapport EVAL_REP structuré.

122

Audit de Santé du Harnais

my-cc-harness

Évalue et score la santé globale d'un harnais Claude Code à travers l'architecture, la couverture des compétences, les hooks, les règles, les serveurs MCP, les pipelines d'évaluation et la configuration d'équipe.

auditharnessclaude-code

122

huggingfaceevaluationmodel-cards

Gestionnaire d'Évaluation Hugging Face

skillattack

Extrait, importe et ajoute des résultats d'évaluation de modèles structurés aux fiches de modèles Hugging Face ; exécute ou importe des évaluations de benchmark et génère le YAML model-index.

Review Merge Worker

Claude Code Skills

Fusionne et déduplique les résultats des travailleurs d'évaluation en un résumé de revue vérifié unique pour les coordinateurs, en appliquant une porte d'architecture et des contrôles de vérification.

evaluationreviewmerge

444

searchopensearchsemantic-search

OpenSearch Launchpad

opensearch-agent-skills

Guide les utilisateurs pour concevoir, construire et déployer des applications de recherche basées sur OpenSearch — de l'ingestion de données et la conception d'index jusqu'à la recherche sémantique/hybride et l'évaluation.

OpenJudge — Pipeline d'évaluation LLM

openjudge

Outils et modèles pour construire des pipelines d'évaluation automatisés pour les LLM : évaluateurs, exécuteurs, agrégateurs et utilitaires d'analyse pour comparer les sorties des modèles et les scores.

evaluationgraderllm

639

skill-authoringevaluationbenchmarking

Créateur de Compétences (Skill Creator)

sage

Créer, itérer et évaluer des compétences d'agent : rédiger le SKILL.md, concevoir des cas de test, exécuter des benchmarks et améliorer le déclenchement et la performance.

1,197

benchmarkevaluationtesting

Claw Bench

claw-bench

Compétence de benchmarking qui guide un agent à travers une suite structurée de tests de capacité et d'étapes de reporting pour une soumission au classement.

173

Langium-AI (LAI)

langium-ai

CLI pour générer des descripteurs de langage, synthétiser des prompts système et exécuter des évaluations afin d'affiner itérativement l'outillage IA pour les projets Langium.

langiumdslcli

researchevaluationnovelty

Filtrage d'Évaluation

de-anthropocentric-research-engine

Pipeline d'évaluation multi-étapes qui score les idées selon leur nouveauté, évalue la faisabilité, les classe et sélectionne les meilleurs candidats pour un développement approfondi.

381

model-referenceretrievalnemotron

Référence Nemotron 3 Nano

nemotron

Base de connaissances faisant autorité pour Nemotron 3 Nano : architecture, données d'entraînement, recettes SFT/RL, conseils d'évaluation et de déploiement.

1,461