MoE Expert-Parallel Overlap

Score de confiance 56/100

Guide l'activation et la validation du chevauchement de communication expert-parallel MoE dans Megatron-Bridge pour masquer la latence de dispatch/combine et améliorer le débit.

déclencheurs:expert-paralleloverlap_moe_expert_parallel_commdelay_wgrad_computeflex dispatcherDeepEPthroughput regression

GitHub SKILL.md

Ce qu'il fait

Cette compétence explique comment activer et valider le chevauchement Expert-Parallel (EP) pour les modèles Mixture-of-Experts (MoE) dans Megatron-Bridge. Elle décrit les options de configuration (overlap_moe_expert_parallel_comm, delay_wgrad_compute), les choix de dispatcher (alltoall vs flex), les configurations minimales fonctionnelles, les contraintes d'exécution et les étapes de vérification, y compris les tests unitaires et les vérifications de logs. Les conseils sont pratiques : commencez par le dispatcher alltoall pour la compatibilité, puis passez à flex (DeepEP/HybridEP) sur les GPU compatibles pour un chevauchement plus élevé.

Quand l'utiliser

Utilisez cette compétence lors de l'exécution de modèles MoE où la communication dispatch/combine est un goulot d'étranglement mesurable et que vous souhaitez échanger de la mémoire/du temps pour améliorer le débit. Elle est appropriée pour optimiser le débit sur des nœuds multi-GPU, diagnostiquer des régressions de débit liées aux paramètres EP, ou valider des interactions complexes (wgrad différé, graphes CUDA). Évitez de l'utiliser lors du démarrage initial ou lorsque le recalcul complet de l'activation est activé.

Ce qui est inclus

Scripts : des exemples de harnais de performance et des tests unitaires sont référencés (tests/unit_tests/training/test_comm_overlap.py, test_deepep.py). (has_scripts: false dans ce package de repo, mais des exemples existent dans l'arborescence)
Références : des liens vers la documentation et des métadonnées de cartes structurées sont fournis dans le corps de la compétence.
Instructions : blocs d'activation clairs pour les dispatchers alltoall et flex, commandes minimales exécutables, étapes de vérification et modes de défaillance connus avec corrections.

Agents compatibles

Il s'agit d'une compétence technique axée sur le code, utile aux agents capables de lire du code, d'exécuter des tests et de modifier des configurations d'entraînement (assistants de type Copilot, agents orientés développeurs). Elle suppose l'accès à un environnement de développement avec Python et le dépôt d'entraînement.

Étiquettes

#moe #performance #gpu #megaton-bridge #training #overlap #throughput #cuda #deepep

Aucun script exécutéAudité le June 23, 2026

Résumé de l'audit

Compétence de chevauchement d'experts parallèles MoE NVIDIA Megatron-Bridge. Le contenu de SKILL.md n'est plus accessible (404 sur GitHub) et aucun script n'était groupé. Seuls les métadonnées (nom, description, tags) étaient disponibles pour examen. Très niche — cible l'optimisation des performances d'entraînement MoE de Megatron-LM, pertinent uniquement pour un petit sous-ensemble d'ingénieurs ML travaillant avec le framework d'entraînement distribué de NVIDIA.

Points d'attention

Le contenu de SKILL.md est en 404 sur GitHub — la compétence a peut-être été supprimée ou déplacée
Aucun script à évaluer
Extrêmement niche : utile uniquement pour les configurations de chevauchement d'experts parallèles MoE de Megatron-Bridge

Notes

Le corps de SKILL.md était nul dans la DB et GitHub renvoie une erreur 404. La compétence a peut-être été supprimée du dépôt source. Le score d'architecture est faible en raison du contenu manquant et de l'absence de structure à évaluer. Le score de qualité est faible car il n'y a rien de substantiel à examiner — seulement une short_description et des tags. L'utilité est niche (optimisation du chevauchement MoE pour Megatron). Aucune préoccupation de sécurité trouvée dans les métadonnées disponibles.

Informations

Dépôt: megatron-bridge
Étoiles: 637

Score de confiance

Global56

Sécurité85

Qualité du code30

Architecture25

Utilité25

Compétences similaires

OpenTestAI

Automated, high-confidence AI testing: bug detection, persona feedback, and prioritized test-case generation using many specialized tester profiles.

Go Data Structures

Authoritative guidance on choosing and using Go built-in and standard-library data structures, with practical best practices for slices, maps, arrays, container

React Development Expert

Provides authoritative React guidance on hooks, state patterns, Server Components, performance optimization, and common architectural patterns.

Code Reviewer

Perform structured, prioritized code reviews that find correctness, security, performance, reliability, and testing issues and provide concrete fix suggestions.

dotLottie Web

Guidelines and patterns for implementing performant dotLottie/Lottie animations on the web (vanilla JS and React), including workers, state machines, and themin

Synalinks Framework

Keras-inspired framework for building structured, neuro-symbolic LLM programs with DataModel schemas, modular Programs, and training/optimization tools.

Party Engine Skill

Guidance and examples for using the @cazala/party particle engine (engine lifecycle, modules, WebGPU vs CPU patterns) in custom apps.

Party Skill

Programmatic guide for the @cazala/party library: engine setup, modules, particle APIs, and performance tips for WebGPU and CPU runtimes.

Retour aux compétences