
de megatron-bridge637
Guide l'activation et la validation du chevauchement de communication expert-parallel MoE dans Megatron-Bridge pour masquer la latence de dispatch/combine et améliorer le débit.
Cette compétence explique comment activer et valider le chevauchement Expert-Parallel (EP) pour les modèles Mixture-of-Experts (MoE) dans Megatron-Bridge. Elle décrit les options de configuration (overlap_moe_expert_parallel_comm, delay_wgrad_compute), les choix de dispatcher (alltoall vs flex), les configurations minimales fonctionnelles, les contraintes d'exécution et les étapes de vérification, y compris les tests unitaires et les vérifications de logs. Les conseils sont pratiques : commencez par le dispatcher alltoall pour la compatibilité, puis passez à flex (DeepEP/HybridEP) sur les GPU compatibles pour un chevauchement plus élevé.
Utilisez cette compétence lors de l'exécution de modèles MoE où la communication dispatch/combine est un goulot d'étranglement mesurable et que vous souhaitez échanger de la mémoire/du temps pour améliorer le débit. Elle est appropriée pour optimiser le débit sur des nœuds multi-GPU, diagnostiquer des régressions de débit liées aux paramètres EP, ou valider des interactions complexes (wgrad différé, graphes CUDA). Évitez de l'utiliser lors du démarrage initial ou lorsque le recalcul complet de l'activation est activé.
alltoall et flex, commandes minimales exécutables, étapes de vérification et modes de défaillance connus avec corrections.Il s'agit d'une compétence technique axée sur le code, utile aux agents capables de lire du code, d'exécuter des tests et de modifier des configurations d'entraînement (assistants de type Copilot, agents orientés développeurs). Elle suppose l'accès à un environnement de développement avec Python et le dépôt d'entraînement.
Compétence de chevauchement d'experts parallèles MoE NVIDIA Megatron-Bridge. Le contenu de SKILL.md n'est plus accessible (404 sur GitHub) et aucun script n'était groupé. Seuls les métadonnées (nom, description, tags) étaient disponibles pour examen. Très niche — cible l'optimisation des performances d'entraînement MoE de Megatron-LM, pertinent uniquement pour un petit sous-ensemble d'ingénieurs ML travaillant avec le framework d'entraînement distribué de NVIDIA.
Le corps de SKILL.md était nul dans la DB et GitHub renvoie une erreur 404. La compétence a peut-être été supprimée du dépôt source. Le score d'architecture est faible en raison du contenu manquant et de l'absence de structure à évaluer. Le score de qualité est faible car il n'y a rien de substantiel à examiner — seulement une short_description et des tags. L'utilité est niche (optimisation du chevauchement MoE pour Megatron). Aucune préoccupation de sécurité trouvée dans les métadonnées disponibles.