
de kernels599
Conseils et exemples pour l'écriture, le benchmarking et l'intégration de kernels Triton optimisés sur ROCm (MI355X, R9700) pour les charges de travail diffusers et transformers.
Cette compétence fournit des modèles approfondis, des implémentations de kernels et des conseils de benchmarking pour écrire des kernels Triton optimisés ciblant les GPU AMD ROCm (MI355X, R9700). Elle couvre les kernels de base (RMSNorm, RoPE 3D, GEGLU, AdaLN), les modèles d'intégration pour HuggingFace diffusers (LTX-Video) et transformers, ainsi que des scripts de performance/benchmarking.
Utilisez-la lors du développement ou de l'optimisation de kernels GPU pour le matériel AMD, l'injection de kernels personnalisés dans des pipelines diffusers, l'exécution de micro-benchmarks et de comparaisons de bout en bout, ou le débogage de contraintes spécifiques à ROCm/HIP. Idéal pour les ingénieurs optimisant des modèles d'inférence ou de calcul intensif sur ROCm.
scripts/.references/.Utilisée idéalement par des agents conscients du code et des assistants orientés développeurs capables d'exécuter des scripts de benchmark et de modifier du code ; adaptée aux agents ayant accès à des environnements de calcul/test.
Cette compétence fournit des conseils pour écrire et benchmarker des kernels Triton optimisés pour les GPU AMD ROCm (MI355X, R9700), ciblant HuggingFace diffusers et transformers. Elle inclut 4 scripts Python et un fichier de dépendances — tous les scripts ont échoué à l'importation en raison de l'absence de dépendances torch/triton/ROCm (ce qui est attendu car cela nécessite du matériel GPU AMD spécialisé). Le SKILL.md est exceptionnellement complet avec des implémentations détaillées de kernels, des benchmarks de performance et les pièges spécifiques à ROCm. Aucune préoccupation de sécurité.
torchtritondiffuserstransformersacceleratesafetensorshuggingface-hubimageioimageio-ffmpegkernelsCompétence de niche de très haute qualité. Profil de sécurité propre. Le code est bien écrit avec des modèles de fermeture appropriés pour éviter les bugs de liaison tardive de Python. La compétence est très spécifique — seuls les développeurs travaillant avec les kernels AMD ROCm Triton en bénéficient. L'architecture est solide avec une bonne utilisation des répertoires scripts/ et references/.