Name: Développement et Débogage Relax RL
Author: deepexperience

Développement et Débogage de Relax RL

Cette compétence fournit un flux de travail complet pour itérer sur le projet d'apprentissage par renforcement Relax, depuis la modification locale du code jusqu'à la validation distante sur des clusters Ray.

Capacités Clés :

Développement à Changements Minimaux : Conseils sur l'application des diffs les plus restreints possibles pour préserver le style et la stabilité du code.
Validation de l'Entraînement Distant : Étapes détaillées pour soumettre des tâches d'entraînement aux clusters Ray via scripts/entrypoint/ray-job.sh.
Surveillance et Filtrage des Tâches : Utilisation avancée de ray job logs avec des filtres de bruit obligatoires pour économiser des tokens et faire remonter les erreurs critiques (CUDA OOM, tracebacks).
Gestion de Cluster : Instructions pour préparer des clusters TorchJob (mononoeud et multinœud) et nettoyer les applications Ray Serve obsolètes.
Validation GenRM : Flux de travail dédiés pour valider les configurations GenRM (LLM-as-judge).

Développement et Débogage de Relax RL

Capacités Clés :

Développement à Changements Minimaux : Conseils sur l'application des diffs les plus restreints possibles pour préserver le style et la stabilité du code.
Validation de l'Entraînement Distant : Étapes détaillées pour soumettre des tâches d'entraînement aux clusters Ray via scripts/entrypoint/ray-job.sh.
Surveillance et Filtrage des Tâches : Utilisation avancée de ray job logs avec des filtres de bruit obligatoires pour économiser des tokens et faire remonter les erreurs critiques (CUDA OOM, tracebacks).
Gestion de Cluster : Instructions pour préparer des clusters TorchJob (mononoeud et multinœud) et nettoyer les applications Ray Serve obsolètes.
Validation GenRM : Flux de travail dédiés pour valider les configurations GenRM (LLM-as-judge).

Développement et Débogage Relax RL

Développement et Débogage de Relax RL

Capacités Clés :

Étiquettes

Pas encore audité

Informations

Compétences similaires

Développement et Débogage Relax RL

Développement et Débogage de Relax RL

Capacités Clés :

Étiquettes

Pas encore audité

Informations

Compétences similaires