
de ako4all262
Boucle automatisée qui profile, itère, analyse les performances et commit des optimisations de kernels GPU sur CUDA/Triton/TileLang/Python/C++ pour obtenir des gains de vitesse mesurables.
AKO4ALL exécute un workflow agentique optimiser→benchmark→log→commit pour les kernels GPU. À partir d'un kernel (CUDA, Triton, TileLang, C++, Python), il initialise un espace de travail, profile le code, effectue des micro-optimisations itératives, vérifie la correction et enregistre chaque itération. L'objectif est d'obtenir une amélioration mesurable du temps d'exécution par rapport à une référence fournie, tout en préservant la correction et la reproductibilité des commits.
Utilisez AKO4ALL lorsque vous avez un kernel GPU existant que vous souhaitez accélérer et mesurer : « optimiser ce kernel », « lancer AKO sur mon kernel CUDA », ou lorsque vous avez besoin d'itérations répétables avec profiling (ncu) et journalisation d'expériences via git. Ce n'est pas conçu pour écrire un kernel à partir de zéro ou pour des conseils de performance GPU génériques.
Idéalement utilisé par des agents disposant de capacités d'exécution de code et de shell (type Copilot/Codex ou agents CLI capables d'exécuter Python, le shell et des outils de profiling). La compétence suppose que l'environnement peut exécuter des benchmarks, invoquer ncu et effectuer des commits git.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.