Compétences d&#x27;agent

ROCm Triton Kernels (RMSNorm, RoPE 3D, GEGLU, AdaLN)

kernels

Conseils et exemples pour l'écriture, le benchmarking et l'intégration de kernels Triton optimisés sur ROCm (MI355X, R9700) pour les charges de travail diffusers et transformers.

gpurocmtriton

599

arizeexperimentsevaluation

Arize Experiment

awesome-copilot

Créer, exécuter et analyser des expériences Arize pour évaluer et comparer les performances des modèles à l'aide de l'interface CLI ax.

34,827

8 déclencheurs

Choisir des décodeurs QEC

qec-autoresearch-skills

Guide pour sélectionner des backends de décodeurs de correction d'erreurs quantiques (QEC) basés sur la forme des artefacts, la famille de codes, le modèle de bruit et les objectifs de validation.

quantumqecdecoders

benchmarkingorchestrationdevops

Exécuter des Benchmarks

codescalebench

Lancez, gérez et relancez les suites de benchmarks CodeScaleBench avec des garde-fous de sécurité, l'exécution couplée baseline+full et des utilitaires d'orchestration.

authoringtestingevaluation

Skill Creator (Claw)

skill-creator-claw

Créez, testez et améliorez itérativement les compétences OpenClaw ; inclut des flux d'évaluation, des guides de cas de test et des outils d'empaquetage.

benchmarkingcalibrationevaluation

Calibrate — Analyse Comparative d'Agents et de Skills

ai-rig

Exécute des benchmarks synthétiques et des tests de calibration pour les agents et les skills : mesure le rappel, la précision, la calibration de la confiance et les comparaisons A/B pour quantifier les performances.

skill-authoringevaluationbenchmarking

Créateur de Skill

awesome-omni-skill

Flux de travail guidé pour la rédaction, le test et l'itération des Agent Skills : rédaction du SKILL.md, exécution d'évaluations, notation des résultats et optimisation des descriptions pour améliorer la précision du déclenchement.

skill-authoringevaluationbenchmarking

Créateur de Compétences

claude-superskills

Créez, améliorez et évaluez des compétences d'agent avec un flux guidé : capture de l'intention, rédaction de SKILL.md, exécution d'évaluations et de benchmarks, et optimisation de la description de déclenchement.

AgentPuzzles

ide-agent-kit

API d'arène de puzzles compétitifs pour agents IA : puzzles chronométrés, classements par modèle, création et modération de puzzles.

puzzlesbenchmarkingapi

civic-analyticspolicy-analysisopen-data

Analyse des Politiques Urbaines — Orchestrateur Maître

civic-analytics-agent-workflow-claude-skill

Un workflow maître pour l'analyse des politiques urbaines et l'innovation civique : cadre les problèmes, effectue des analyses fondées sur des preuves, rédige des communications et établit des benchmarks entre villes.

Évaluation LLM

claude-plugins

Cadre d'évaluation et outils pour mesurer systématiquement les performances des LLM à l'aide de métriques automatisées, du jugement humain et de tests A/B.

evaluationllmmetrics

performanceprofilingoptimization

Optimiseur de Performance

dotfiles

Guide le profilage et les optimisations ciblées pour le code et les systèmes — mesurez, identifiez les goulots d'étranglement et vérifiez les améliorations sur Python, Node, shell et système

117

performanceprofilingoptimization

Optimiseur de Performance

claude-skill-registry

Diagnostiquez les goulots d'étranglement de performance des applications et concevez des optimisations pour le backend, la base de données, la mise en cache et les Core Web Vitals du frontend.

512

performancebenchmarkingweb-vitals

Benchmark de Performance

gStack

Mesure et détecte les régressions de performance des pages web à l'aide de benchmarks automatisés, de baselines et d'analyses de tendances.

climodel-profilingaot-compilation

SkVM Général

jiuwenswarm

Pilote l'interface CLI skvm pour profiler des modèles, compiler des compétences AOT, exécuter des tâches uniques et des benchmarks, et gérer les propositions de compilation/jit via des flux CLI sécurisés

813

huggingfaceevaluationmodel-cards

Gestionnaire d'Évaluation Hugging Face

skillattack

Extrait, importe et ajoute des résultats d'évaluation de modèles structurés aux fiches de modèles Hugging Face ; exécute ou importe des évaluations de benchmark et génère le YAML model-index.

pythonperformanceprofiling

Optimisation des Performances Python

opencode-skills-collection

Profiler et optimiser les applications Python pour réduire la latence et l'utilisation de la mémoire à l'aide de profileurs CPU/mémoire et des meilleures pratiques de performance.

performancebenchmarkingweb-vitals

Performance Benchmark (gstack)

gstack-ko

Exécutez des lignes de base de performance automatisées et la détection de régressions pour les pages web (TTFB, FCP, LCP, tailles de bundles, requêtes) et comparez-les aux lignes de base historiques.

Patterns Python HPC

claude-skill-registry

Guide et patterns pour le parallélisme Python et les performances GPU/CPU : threading vs multiprocessing vs asyncio, flux CUDA, PyTorch DDP et benchmarking.

pythonhpcgpu

512

performanceprofilingaudit

Audit de Performance TAO

tao

Méthodologie d'audit de performance structurée : mesurer, identifier les goulots d'étranglement, optimiser le point critique et vérifier les améliorations avec des benchmarks.

performancebenchmarkingweb-vitals

Benchmark (Détection de Régression de Performance)

OStack SaaS

Benchmarking de performance automatisé et détection de régression : capture les lignes de base, mesure les Core Web Vitals et compare les métriques entre les PR pour signaler les régressions.

105

evaluationbenchmarkingagent-optimization

AgentV Bench

entityprocess

Exécute les évaluations AgentV et optimise les agents via une itération basée sur les évaluations.

evaluationsllm-as-a-judgebenchmarking

Couche d'Évaluation d'Agent

eval-layer

Ajoutez une couche d'évaluation basée sur une rubrique aux projets d'agents pour mesurer la qualité via un scoring LLM-as-a-judge et des métriques pondérées.

skill-authoringevaluationbenchmarking

Créateur de Compétences (Skill Creator)

sage

Créer, itérer et évaluer des compétences d'agent : rédiger le SKILL.md, concevoir des cas de test, exécuter des benchmarks et améliorer le déclenchement et la performance.

1,197

gpuperformancebenchmarking

AKO4ALL — Agentic Kernel Optimization

ako4all

Boucle automatisée qui profile, itère, analyse les performances et commit des optimisations de kernels GPU sur CUDA/Triton/TileLang/Python/C++ pour obtenir des gains de vitesse mesurables.

262

evaluationbenchmarkingnemo

NeMo Evaluator

nemo-platform

Transformez une grille d'évaluation et un ensemble de données en une évaluation reproductible à l'aide du SDK NeMo Evaluator ; générez des configurations, exécutez des évaluations locales et expliquez les scores et les échecs.