
de argentos-core114
Guide complet pour le fine-tuning des LLM avec TRL, couvrant SFT, DPO, PPO et GRPO pour l'alignement des préférences humaines.
Ce skill fournit un framework complet pour le post-entraînement des modèles de langage afin de les aligner sur les préférences humaines. Il permet à l'agent d'implémenter des pipelines ML complexes, incluant le Supervised Fine-Tuning (SFT) pour le suivi d'instructions et diverses techniques d'apprentissage par renforcement pour l'optimisation.
Utilisez ce skill lorsque vous devez effectuer du RLHF (Reinforcement Learning from Human Feedback), aligner un modèle avec un jeu de données de préférences (paires choisies vs rejetées), ou optimiser un modèle à l'aide de fonctions de récompense.
basic_grpo_training.py.Conçu pour les agents disposant de capacités d'exécution Python et d'un accès aux GPU NVIDIA (CUDA), spécifiquement ceux s'intégrant aux bibliothèques HuggingFace Transformers et TRL.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.