
de relax324
Outils et procédures pour développer le projet Relax et valider les changements en soumettant et surveillant des tâches d'entraînement Ray distantes (non bloquantes, adaptées au débogage).
Cette compétence fournit un flux de travail focalisé sur le développement et le débogage pour la base de code d'apprentissage par renforcement Relax. Elle explique comment effectuer des modifications de code minimales et ciblées, soumettre des tâches d'entraînement à des clusters Ray distants à l'aide des scripts d'entrée fournis, et surveiller les logs pour valider ou itérer sur des corrections. La compétence met l'accent sur la soumission de tâches non bloquantes (RAY_NO_WAIT=1) et un filtrage intelligent des logs pour que le débogage soit efficace et sûr.
Utilisez cette compétence quand vous avez besoin de : ajuster des paramètres d'entraînement ou des scripts, valider des modifications de code sur un cluster Ray réel, exécuter des expériences distantes pour reproduction, ou trier des échecs d'entraînement (erreurs d'importation, CUDA OOM, incompatibilités de runtime). Ne lancez pas de flux de débogage distants sans l'adresse explicite du cluster (RAY_ADDRESS) fournie par l'utilisateur.
Cette compétence est idéale pour les assistants conscients du code capables d'exécuter des commandes shell et d'interpréter des logs (agents de type Copilot/Codex/Claude Code/GitHub Codespaces). Elle suppose que l'agent peut lire les fichiers du dépôt et invoquer les outils CLI (ray, bash).
Une compétence de développement et de débogage bien documentée pour le projet d'apprentissage par renforcement Relax sur les clusters Ray. Aucun script inclus — purement pédagogique, guidant l'agent à travers les modifications de code, la soumission de jobs d'entraînement à distance et la surveillance des logs. Prérequis clairs, tableaux de variables d'environnement et étapes de récupération d'erreurs. Utilité de niche car elle cible le flux de travail d'un projet spécifique.
Compétence propre sans problèmes de sécurité. Aucun script à exécuter. Purement pédagogique avec une bonne structure et des conseils de gestion d'erreurs. Limitée au flux de travail de débogage d'un projet spécifique.