
de skills73
Conseils et configurations pour activer le chevauchement des communications parallèles d'experts dans Megatron-Bridge pour les modèles MoE — utilisez-le pour masquer la latence de dispatch/combine et améliorer le débit.
Fournit des conseils détaillés, des exemples de configurations et des étapes de vérification pour activer le chevauchement (overlap) des communications parallèles d'experts (EP) dans Megatron-Bridge. Décrit les choix de dispatcher (alltoall vs flex), le calcul différé du gradient des poids, les contraintes du backend (DeepEP/HybridEP) et les configurations minimales de fonctionnement pour déployer le chevauchement en toute sécurité.
À utiliser lors de l'exécution de modèles MoE où la communication all-to-all de dispatch/combine des experts est un goulot d'étranglement mesurable et si vous disposez des contraintes de mémoire et de déploiement nécessaires pour optimiser le débit. À éviter pour les exécutions mineures, la mise en place initiale de la correction ou les configurations PyTorch/TE/CUDA incompatibles.
Ingénieurs et agents ayant des connaissances sur l'infrastructure d'entraînement deep-learning (Megatron/Bridge) — utile pour les assistants d'optimisation des performances et les outils d'automatisation d'infrastructure.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.