
de megatron-bridge637
Guide l'activation et la validation du chevauchement de communication expert-parallel MoE dans Megatron-Bridge pour masquer la latence de dispatch/combine et améliorer le débit.
Cette compétence explique comment activer et valider le chevauchement Expert-Parallel (EP) pour les modèles Mixture-of-Experts (MoE) dans Megatron-Bridge. Elle décrit les options de configuration (overlap_moe_expert_parallel_comm, delay_wgrad_compute), les choix de dispatcher (alltoall vs flex), les configurations minimales fonctionnelles, les contraintes d'exécution et les étapes de vérification, y compris les tests unitaires et les vérifications de logs. Les conseils sont pratiques : commencez par le dispatcher alltoall pour la compatibilité, puis passez à flex (DeepEP/HybridEP) sur les GPU compatibles pour un chevauchement plus élevé.
Utilisez cette compétence lors de l'exécution de modèles MoE où la communication dispatch/combine est un goulot d'étranglement mesurable et que vous souhaitez échanger de la mémoire/du temps pour améliorer le débit. Elle est appropriée pour optimiser le débit sur des nœuds multi-GPU, diagnostiquer des régressions de débit liées aux paramètres EP, ou valider des interactions complexes (wgrad différé, graphes CUDA). Évitez de l'utiliser lors du démarrage initial ou lorsque le recalcul complet de l'activation est activé.
alltoall et flex, commandes minimales exécutables, étapes de vérification et modes de défaillance connus avec corrections.Il s'agit d'une compétence technique axée sur le code, utile aux agents capables de lire du code, d'exécuter des tests et de modifier des configurations d'entraînement (assistants de type Copilot, agents orientés développeurs). Elle suppose l'accès à un environnement de développement avec Python et le dépôt d'entraînement.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.