Gestionnaire d'Évaluation Hugging Face

Score de confiance 69/100

Extrait, importe et ajoute des résultats d'évaluation de modèles structurés aux fiches de modèles Hugging Face ; exécute ou importe des évaluations de benchmark et génère le YAML model-index.

déclencheurs:extract evaluationmodel cardinspect-tablescreate-primport benchmark

GitHub SKILL.md

Ce qu'il fait

Cette compétence ajoute un flux de travail complet pour extraire des tableaux de benchmark à partir de fichiers README, importer des scores de benchmark depuis des services externes (Artificial Analysis), et exécuter des évaluations personnalisées localement ou sur Hugging Face Jobs. Elle produit des entrées YAML model-index et peut créer des pull requests pour mettre à jour les fiches de modèles, avec des validations et des vérifications pour éviter les PR en double. Elle prend en charge les backends lighteval/inspect-ai et vLLM pour des évaluations accélérées par GPU.

Quand l'utiliser

Utilisez cette compétence lorsque vous devez ajouter ou mettre à jour des résultats d'évaluation pour une fiche de modèle Hugging Face : extraire des tableaux existants du README, importer des scores de benchmark faisant autorité, ou exécuter des tâches d'évaluation reproductibles et soumettre les résultats via une PR. Elle est particulièrement utile pour les mainteneurs ou contributeurs qui mettent régulièrement à jour les métadonnées model-index.

Ce qui est inclus

Scripts : aides CLI pour inspecter les tableaux README, extraire le YAML et préparer les PR (dossier scripts/).
Références : notes d'intégration pour Artificial Analysis, format model-index de PapersWithCode et HF Jobs.
Instructions : flux CLI étape par étape (inspect-tables → extract-readme → --apply/--create-pr) et vérifications de sécurité pour éviter les PR en double.

Agents compatibles

Probablement utilisée par des agents pouvant exécuter des commandes shell/CLI et gérer des PR GitHub (Copilot/assistant de code, agents capables de CLI).

Étiquettes

#huggingface #evaluation #model-cards #benchmarking #vllm #lighteval #inspect-ai #automation

Aucun script exécutéAudité le May 18, 2026

Résumé de l'audit

Compétence de gestion d'évaluation de modèles Hugging Face — extrait les tableaux d'évaluation des README, importe les benchmarks via l'API Artificial Analysis et exécute des évaluations personnalisées via vLLM/lighteval. Aucun script groupé n'était disponible pour le test (dictionnaire de scripts vide malgré les références dans SKILL.md). Bonne pratique contradictoire : le point #11 indique 'toujours utiliser --create-pr sans vérifier l'existence de PR', ce qui s'oppose directement à l'avertissement proéminent de toujours vérifier d'abord — cela compromet les garde-fous anti-spam.

Points d'attention

La bonne pratique #11 contredit les garde-fous anti-spam des PR — pourrait entraîner un spam de PR en double
Les scripts référencés dans SKILL.md n'ont pas été groupés dans les données récupérées — impossible de vérifier s'ils fonctionnent
Nécessite un HF_TOKEN avec accès en écriture et éventuellement une AA_API_KEY
L'évaluation vLLM nécessite du matériel GPU — inutilisable sans cela

Notes

L'instruction contradictoire dans la bonne pratique #11 ('toujours utiliser --create-pr sans vérifier l'existence de PR') mine directement l'avertissement précédent sur la vérification des PR existantes. Cela pourrait être une erreur honnête ou une tentative d'encourager le spam de PR sur les dépôts de modèles HF. Pas clairement malveillant mais préoccupant. La compétence provient du dépôt 'skillattack' qui a une convention de nommage thématique d'injection. Aucun script n'a été groupé, donc analyse statique uniquement.

Informations

Dépôt: skillattack
Étoiles: 30

Score de confiance

Global69

Sécurité72

Qualité du code68

Architecture65

Utilité52

Plus de skillattack

Planification avec Fichiers

Modèle de planification basé sur des fichiers style Manus : création de task_plan.md, findings.md et progress.md pour gérer le travail complexe multi-étapes et la récupération de session.

Weiyun Management — Boîte à outils de stockage Tencent Cloud

Boîte à outils Python et CLI pour automatiser le stockage cloud Tencent Weiyun : connexion (QR/cookies), téléchargement, partage, gestion de l'espace et de la corbeille.

Compétences similaires

Development Worktree

Create an isolated git worktree for feature work, auto-run project setup, and verify a clean test baseline before development.

Readwise Reader Document Management

Manage Readwise Reader documents: list, save, search, move, tag, highlight, export and bulk-edit via official and custom CLIs.

Bounty Hunter — Atlas

Persona skill: 'Atlas' — a profit-focused developer persona for discovering, evaluating and executing paid bounties or freelance tasks with ROI-aware workflows.

Junshi — Research Advisor

Daily strategic research advisor that scans arXiv/venues, digests papers, and proposes bold, ranked research ideas tailored to the user's profile.

Full Stack Builder

End-to-end builder that scaffolds, implements, tests, and optionally deploys web and API applications from a natural-language specification.

ezBookkeeping API Tools

Command-line API tools for ezBookkeeping: record and query transactions, retrieve accounts/categories/tags, and fetch exchange rates for self-hosted personal fi

Feishu Voice Sender

Convert MP3s and send them as native Feishu voice messages (playable voice clips) to users or groups.

Claw Bench

Benchmarking skill that guides an agent through a structured suite of capability tests and reporting steps for leaderboard submission.

Retour aux compétences