Entraînement TRL sur Hugging Face Jobs

Score de confiance 87/100

Entraînez et affinez des modèles de langage sur Hugging Face Jobs en utilisant TRL (SFT, DPO, GRPO) avec surveillance Trackio et push Hub automatisé. Inclut des scripts et des estimations de coûts.

déclencheurs:train modelfine-tuneTRLhugging face jobsconvert to ggufestimate cost

GitHub SKILL.md

Ce qu'il fait

Fournit des conseils étape par étape et des modèles pour exécuter des flux de travail d'entraînement TRL (Transformer Reinforcement Learning) sur Hugging Face Jobs. Couvre l'ajustement supervisé (SFT), l'optimisation directe des préférences (DPO), le GRPO, la modélisation de la récompense et la conversion des modèles entraînés en GGUF pour le déploiement local. Inclut des exemples de scripts, l'utilisation des dépendances inline PEP 723 pour hf_jobs, des instructions de surveillance Trackio et la configuration du push Hub requise pour préserver les artefacts d'entraînement.

Quand l'utiliser

Utilisez cette compétence lorsque les utilisateurs souhaitent affiner ou entraîner des modèles de langage par RL sur des GPU cloud sans infrastructure locale, ont besoin d'aide pour sélectionner le matériel et les délais d'expiration, veulent valider les ensembles de données avant les exécutions GPU, ou ont besoin d'une conversion automatisée en GGUF pour l'inférence locale. Idéal pour les tâches d'entraînement planifiées, les estimations de coûts et la production de scripts d'entraînement prêts pour la production.

Ce qui est inclus

Scripts : modèles prêts pour la production pour SFT, DPO, GRPO et scripts utilitaires (estimate_cost, convert_to_gguf).
Références : notes détaillées sur la sélection du matériel, la validation des ensembles de données, la surveillance Trackio et la sauvegarde sur le Hub.
Instructions : comment soumettre des scripts inline à hf_jobs(), secrets requis (HF_TOKEN), conseils sur les délais d'expiration et checklist de push-to-hub.

Agents compatibles

Principalement pour les agents capables de soumettre des jobs cloud ou de générer du code d'entraînement (assistants de style Claude Code/Claude-in-code). Utile également pour les CLI de développeurs qui interagissent avec Hugging Face Jobs et les systèmes CI.

Étiquettes

#training #trl #huggingface #fine-tuning #rlhf #gguf #trackio #dataset-validation

Aucun script exécutéAudité le June 14, 2026

Résumé de l'audit

TRL Training skill for Hugging Face Jobs — comprehensive guide covering SFT, DPO, GRPO training with UV scripts, cost estimation, dataset validation, and GGUF conversion. No bundled scripts were present in the fetch. SKILL.md is well-structured with clear troubleshooting, hardware guidance, and progressive disclosure via references/. Minor concern: references external script URLs which could drift, but standard for HF ecosystem.

Points d'attention

Requires Hugging Face Pro/Team/Enterprise plan for Jobs
Training environment is ephemeral — must push to Hub or lose results
Default 30min timeout too short for real training

Notes

Well-crafted skill for a popular use case. No security issues found. Scripts directory referenced but empty in fetched data — example scripts live in the repo but weren't included in the fetch payload.

Informations

Dépôt: claude-skill-registry
Étoiles: 431
Installations: 0

Score de confiance

Global87

Sécurité95

Qualité du code78

Architecture82

Utilité75

Plus de claude-skill-registry

Uloop: Exécuter du Code Dynamique

Exécute de petits extraits C# dans l'éditeur Unity via le CLI uloop pour des tâches d'automatisation de l'éditeur comme le câblage de prefabs, les flux AddComponent et les modifications de scène.

Création de Bookmarklets

Génère des bookmarklets JavaScript exécutables par le navigateur avec un formatage strict (enveloppe IIFE, commentaires de bloc) et fournit des liens prêts à installer ou des instructions d'installation.

Overnight — Codage Autonome de Longue Durée

Orchestre des objectifs de codage de longue durée : décompose les objectifs en tâches atomiques, déploie des travailleurs en worktrees isolés, vérifie les critères d'acceptation et fusionne.

Bexio API (CRM & Facturation Suisse)

Intégrez et gérez les contacts, devis, factures, commandes et produits Bexio via l'API Bexio. Utile pour les workflows de CRM et de documents commerciaux suisses.

Rédacteur de Recherche de Contenu

Une compétence de partenaire d'écriture qui aide à rechercher, structurer, rédiger, citer et améliorer itérativement des articles, des tutoriels et des billets d'opinion.

Diagramme de Hiérarchie d'Agents

Générez des diagrammes de hiérarchie visuels (ASCII, Mermaid, GraphML) montrant les rôles, les niveaux et la délégation des agents pour la documentation et l'onboarding.

Réviser la Pull Request

Réviseur de PR automatisé et structuré : rassemble les métadonnées, les diffs, les résultats de CI, les changements de dépendances et fournit un verdict concis avec des recommandations de tests et de documentation.

Agent Ops — Workflow de Test

Guide pour concevoir, exécuter et analyser des suites de tests pour les agents : isolation des tests, modèles d'exécution et application basée sur la couverture.

libagent

Bibliothèque d'orchestration d'agents pour l'IA conversationnelle — coordonne les complétions LLM, la mémoire, l'exécution d'outils et les flux multi-tours ; utile pour construire des agents de chat

API Raindrop.io

Gérez les marque-pages, collections, tags et surlignages Raindrop.io via l'API REST Raindrop avec des scripts d'aide et des exemples.

Compétences similaires

Microsoft Foundry Classic — Expert Guidance

Comprehensive guidance for building, configuring, troubleshooting, and deploying Microsoft Foundry Classic agents and integrations.

Synalinks Framework

Keras-inspired framework for building structured, neuro-symbolic LLM programs with DataModel schemas, modular Programs, and training/optimization tools.

Runtime Communication (research_mvp)

Rules and workflows for messaging, delegation, and task coordination in the research_mvp local multi-agent runtime (leader, researcher, trainer).

Deliberate Practice

Guided framework for accelerating skill acquisition using focused practice, immediate feedback, and progressive challenge—useful for learning technical skills,

libagent

Agent orchestration library for conversational AI — coordinates LLM completions, memory, tool execution, and multi-turn flows; useful for building chat agents a

Relax: Development & Remote Training Debugging

Tools and procedures to develop the Relax project and validate changes by submitting and monitoring remote Ray training jobs (non-blocking, debug-friendly).

Hugging Face Evaluation Manager

Extract, import, and add structured model evaluation results to Hugging Face model cards; run or import benchmark evaluations and generate model-index YAML for

KnowBe4 (Membrane)

Integrate with KnowBe4 via the Membrane CLI to manage users, phishing and training campaigns, groups, reports, and account settings.