Ce qu'il fait

Fournit des conseils détaillés, des exemples de configurations et des étapes de vérification pour activer le chevauchement (overlap) des communications parallèles d'experts (EP) dans Megatron-Bridge. Décrit les choix de dispatcher (alltoall vs flex), le calcul différé du gradient des poids, les contraintes du backend (DeepEP/HybridEP) et les configurations minimales de fonctionnement pour déployer le chevauchement en toute sécurité.

Quand l'utiliser

À utiliser lors de l'exécution de modèles MoE où la communication all-to-all de dispatch/combine des experts est un goulot d'étranglement mesurable et si vous disposez des contraintes de mémoire et de déploiement nécessaires pour optimiser le débit. À éviter pour les exécutions mineures, la mise en place initiale de la correction ou les configurations PyTorch/TE/CUDA incompatibles.

Ce qui est inclus

Scripts : aucun dans ce package de compétences, mais il fait référence à des commandes de harnais de performance et des tests unitaires dans le dépôt.
Références : documents structurés et un fichier card.yaml avec des métadonnées.
Instructions : extraits de configuration, matrice de compatibilité, étapes de vérification (tests unitaires, vérification des logs), commandes minimales exécutables et diagnostic des pannes.

Agents compatibles

Ingénieurs et agents ayant des connaissances sur l'infrastructure d'entraînement deep-learning (Megatron/Bridge) — utile pour les assistants d'optimisation des performances et les outils d'automatisation d'infrastructure.

MoE Expert-Parallel Overlap (Megatron-Bridge)

Ce qu'il fait

Quand l'utiliser

Ce qui est inclus

Agents compatibles

Étiquettes

Pas encore audité

Compétences similaires

Informations