
de maxtext-slurm27
Un flux d'analyse post-entraînement utilisant le marquage TGS, TraceLens et IRLens pour diagnostiquer les performances d'entraînement des modèles, l'utilisation des GPU et les points chauds au niveau du kernel.
Cette compétence fournit un pipeline d'analyse de performance étape par étape pour les exécutions d'entraînement MaxText sur des clusters gérés par Slurm. Le dispatcher examine les journaux et les artefacts, exécute les outils appropriés (tgs_tagger, TraceLens, IRLens) et produit un fichier analysis.json structuré et des artefacts CSV. L'assistant utilise ces sorties pour résumer le débit (TGS/MFU), la répartition calcul/comm/inactif du GPU, la composition temporelle au niveau du kernel et suggérer les prochaines étapes.
Utilisez-le lors de l'investigation d'exécutions d'entraînement lentes, de régressions de débit inexpliquées, de points chauds par kernel, ou lors de la comparaison de deux jobs pour trouver des causes au niveau du système ou du GPU. Il supporte à la fois les analyses approfondies d'un seul job et les flux de comparaison multi-jobs (le SKILL.md renvoie vers des compétences complémentaires pour les comparaisons TSDB multi-jobs et la vérification par forage de profil par kernel).
Idéal pour les agents capables d'exécuter des outils shell/python et d'inspecter les sorties JSON/CSV générées. Cible les ingénieurs en infrastructure ML et les enquêteurs de performance travaillant avec les artefacts TraceLens/IRLens.
MaxText/Slurm performance analysis skill for diagnosing ML training job performance using TGS tagging, TraceLens, and IRLens. No bundled scripts — the SKILL.md instructs the agent to run utilities from a separate repo. Well-structured 5-step workflow with good cross-references to sibling skills and honest warnings about TraceLens per-GPU bias. Very niche audience requiring AMD GPU hardware and specific Slurm cluster setup.
TraceLenstgs_taggerxplane protobuf filesAMD GPU cluster with SlurmDomain-specific infra skill with no scripts bundled. Security is solid — no dangerous patterns, explicitly warns against binding dashboard to 0.0.0.0. The skill is well-documented but only useful to a narrow audience running AMD MaxText on Slurm clusters.