TRL LLM Fine-Tuning & Alignment

Guide complet pour le fine-tuning des LLM avec TRL, couvrant SFT, DPO, PPO et GRPO pour l'alignement des préférences humaines.

déclencheurs:fine-tune llmrlhfdpo trainingppo optimizationgrpoalign model preferencesreward model training

GitHub SKILL.md

Ce que fait ce skill

Ce skill fournit un framework complet pour le post-entraînement des modèles de langage afin de les aligner sur les préférences humaines. Il permet à l'agent d'implémenter des pipelines ML complexes, incluant le Supervised Fine-Tuning (SFT) pour le suivi d'instructions et diverses techniques d'apprentissage par renforcement pour l'optimisation.

Quand l'utiliser

Utilisez ce skill lorsque vous devez effectuer du RLHF (Reinforcement Learning from Human Feedback), aligner un modèle avec un jeu de données de préférences (paires choisies vs rejetées), ou optimiser un modèle à l'aide de fonctions de récompense.

Ce qui est inclus

Scripts : Inclut des templates d'entraînement prêts pour la production comme basic_grpo_training.py.
Références : Documentation approfondie sur SFT, les variantes de DPO, la modélisation des récompenses et les méthodes de RL en ligne.
Instructions : Workflows étape par étape pour des pipelines RLHF complets, l'alignement DPO simple et l'entraînement GRPO optimisé pour la mémoire.

Agents compatibles

Conçu pour les agents disposant de capacités d'exécution Python et d'un accès aux GPU NVIDIA (CUDA), spécifiquement ceux s'intégrant aux bibliothèques HuggingFace Transformers et TRL.

Étiquettes

#mlops #llm-fine-tuning #rlhf #trl #dpo #ppo #grpo #huggingface #alignment

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: argentos-core
Étoiles: 114

Compétences similaires

Seq Wrangler

Sequence data QC, trimming, alignment, and BAM processing pipeline helper — wraps FastQC, fastp/Trimmomatic, BWA/Bowtie2/Minimap2, and SAMtools for automated re

DSPy — Declarative LM Programming

Use DSPy to build declarative, modular LM pipelines, optimize prompts automatically, and assemble reliable RAG/agent systems with structured signatures and opti

Terradev — Cross‑Cloud GPU Provisioning

Provision and manage GPUs across clouds, create GPU Kubernetes clusters, deploy inference endpoints, and burst local compute to cloud with BYOAPI credential saf

libagent

Agent orchestration library for conversational AI — coordinates LLM completions, memory, tool execution, and multi-turn flows; useful for building chat agents a

Model Deployment (SageMaker & Bedrock)

Generates deployment code and a Jupyter notebook to deploy LoRA fine-tuned Nova or OSS models (from SageMaker Serverless Model Customization) to SageMaker endpo

RAG Implementation Patterns

Practical guide to building production Retrieval-Augmented Generation (RAG) systems: vector DB selection, chunking strategies, embedding model choices, retrieva

Hugging Face Evaluation Manager

Extract, import, and add structured model evaluation results to Hugging Face model cards; run or import benchmark evaluations and generate model-index YAML for

MindsDB

Integrate and interact with MindsDB via the Membrane CLI: manage connections, list and run actions, and automate model predictions against your database.

Retour aux compétences