Analyse de Performance MaxText

Score de confiance 81/100

Un flux d'analyse post-entraînement utilisant le marquage TGS, TraceLens et IRLens pour diagnostiquer les performances d'entraînement des modèles, l'utilisation des GPU et les points chauds au niveau du kernel.

déclencheurs:performance analysisTraceLensIRLenstgs_taggerxplanetraining job analysis

GitHub SKILL.md

Ce qu'il fait

Cette compétence fournit un pipeline d'analyse de performance étape par étape pour les exécutions d'entraînement MaxText sur des clusters gérés par Slurm. Le dispatcher examine les journaux et les artefacts, exécute les outils appropriés (tgs_tagger, TraceLens, IRLens) et produit un fichier analysis.json structuré et des artefacts CSV. L'assistant utilise ces sorties pour résumer le débit (TGS/MFU), la répartition calcul/comm/inactif du GPU, la composition temporelle au niveau du kernel et suggérer les prochaines étapes.

Quand l'utiliser

Utilisez-le lors de l'investigation d'exécutions d'entraînement lentes, de régressions de débit inexpliquées, de points chauds par kernel, ou lors de la comparaison de deux jobs pour trouver des causes au niveau du système ou du GPU. Il supporte à la fois les analyses approfondies d'un seul job et les flux de comparaison multi-jobs (le SKILL.md renvoie vers des compétences complémentaires pour les comparaisons TSDB multi-jobs et la vérification par forage de profil par kernel).

Ce qui est inclus

Scripts : utilitaires de dispatcher (utils/analyze_job.py) et scripts d'aide pour extraire les métriques clés des fichiers analysis.json et TraceLens CSV
Références : notes de patch et conseils opérationnels pour TraceLens ; instructions pour installer/patcher TraceLens si nécessaire
Instructions : runbook pour l'utilisation du dispatcher, la gestion de l'installation/patch de TraceLens, la lecture de analysis.json et l'interprétation des sorties CSV (gpu_events_averages.csv, décompositions de kernel)

Agents compatibles

Idéal pour les agents capables d'exécuter des outils shell/python et d'inspecter les sorties JSON/CSV générées. Cible les ingénieurs en infrastructure ML et les enquêteurs de performance travaillant avec les artefacts TraceLens/IRLens.

Étiquettes

#performance #profiling #tracing #tracelens #irlens #gpu #ml-infra #slurm

Aucun script exécutéAudité le May 19, 2026

Résumé de l'audit

MaxText/Slurm performance analysis skill for diagnosing ML training job performance using TGS tagging, TraceLens, and IRLens. No bundled scripts — the SKILL.md instructs the agent to run utilities from a separate repo. Well-structured 5-step workflow with good cross-references to sibling skills and honest warnings about TraceLens per-GPU bias. Very niche audience requiring AMD GPU hardware and specific Slurm cluster setup.

Points d'attention

Requires AMD GPU cluster with Slurm and MaxText framework
TraceLens needs manual patching for TF 2.19+ compatibility
kernel_launchers_summary CSV has ~1.5-2x inflation bug on 1-node profiles
pip install from GitHub without checksum verification

Dépendances manquantes

TraceLenstgs_taggerxplane protobuf filesAMD GPU cluster with Slurm

Notes

Domain-specific infra skill with no scripts bundled. Security is solid — no dangerous patterns, explicitly warns against binding dashboard to 0.0.0.0. The skill is well-documented but only useful to a narrow audience running AMD MaxText on Slurm clusters.

Informations

Dépôt: maxtext-slurm
Étoiles: 27

Score de confiance

Global81

Sécurité88

Qualité du code72

Architecture78

Utilité42

Compétences similaires

OpenTestAI

Automated, high-confidence AI testing: bug detection, persona feedback, and prioritized test-case generation using many specialized tester profiles.

Go Data Structures

Authoritative guidance on choosing and using Go built-in and standard-library data structures, with practical best practices for slices, maps, arrays, container

React Development Expert

Provides authoritative React guidance on hooks, state patterns, Server Components, performance optimization, and common architectural patterns.

Code Reviewer

Perform structured, prioritized code reviews that find correctness, security, performance, reliability, and testing issues and provide concrete fix suggestions.

Datadog Live Debugger (dd-debugger)

Place live log probes on running services to capture runtime arguments and variables without redeploying (Datadog Live Debugger).

dotLottie Web

Guidelines and patterns for implementing performant dotLottie/Lottie animations on the web (vanilla JS and React), including workers, state machines, and themin

Party Engine Skill

Guidance and examples for using the @cazala/party particle engine (engine lifecycle, modules, WebGPU vs CPU patterns) in custom apps.

Party Skill

Programmatic guide for the @cazala/party library: engine setup, modules, particle APIs, and performance tips for WebGPU and CPU runtimes.

Retour aux compétences