AKO4ALL — Agentic Kernel Optimization

Boucle automatisée qui profile, itère, analyse les performances et commit des optimisations de kernels GPU sur CUDA/Triton/TileLang/Python/C++ pour obtenir des gains de vitesse mesurables.

déclencheurs:optimize this kernelAKOAKO4ALLncubenchmark kernelspeed up CUDAkernel optimization

GitHub SKILL.md

Ce qu'il fait

AKO4ALL exécute un workflow agentique optimiser→benchmark→log→commit pour les kernels GPU. À partir d'un kernel (CUDA, Triton, TileLang, C++, Python), il initialise un espace de travail, profile le code, effectue des micro-optimisations itératives, vérifie la correction et enregistre chaque itération. L'objectif est d'obtenir une amélioration mesurable du temps d'exécution par rapport à une référence fournie, tout en préservant la correction et la reproductibilité des commits.

Quand l'utiliser

Utilisez AKO4ALL lorsque vous avez un kernel GPU existant que vous souhaitez accélérer et mesurer : « optimiser ce kernel », « lancer AKO sur mon kernel CUDA », ou lorsque vous avez besoin d'itérations répétables avec profiling (ncu) et journalisation d'expériences via git. Ce n'est pas conçu pour écrire un kernel à partir de zéro ou pour des conseils de performance GPU génériques.

Ce qui est inclus

Scripts : modèles de bench-wrapper et scripts/bench.sh (intégration bench/kernelbench) lorsqu'ils sont présents dans le repo ; la compétence fournit des directives pour générer et exécuter les commandes de benchmark.
Références : directives d'utilisation du profiling ncu et des entrées de type KernelBench ; la compétence explique l'usage de HINTS.md et ITERATIONS.md pour les directives persistantes et les journaux d'expériences.
Instructions : workflow procédural détaillé couvrant l'inventaire de l'espace de travail, l'initialisation de la branche/solution, la génération de commandes de benchmark, le protocole d'itération (benchmark → entrée ITERATIONS.md → commit), le guidage pour le profiling, la gestion des blocages et les étapes de finalisation.

Agents compatibles

Idéalement utilisé par des agents disposant de capacités d'exécution de code et de shell (type Copilot/Codex ou agents CLI capables d'exécuter Python, le shell et des outils de profiling). La compétence suppose que l'environnement peut exécuter des benchmarks, invoquer ncu et effectuer des commits git.

Étiquettes

#gpu #performance #benchmarking #profiling #cuda #triton #optimization #iterative-optimization

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: ako4all
Étoiles: 262

Compétences similaires

OpenTestAI

Automated, high-confidence AI testing: bug detection, persona feedback, and prioritized test-case generation using many specialized tester profiles.

Go Data Structures

Authoritative guidance on choosing and using Go built-in and standard-library data structures, with practical best practices for slices, maps, arrays, container

React Development Expert

Provides authoritative React guidance on hooks, state patterns, Server Components, performance optimization, and common architectural patterns.

Code Reviewer

Perform structured, prioritized code reviews that find correctness, security, performance, reliability, and testing issues and provide concrete fix suggestions.

dotLottie Web

Guidelines and patterns for implementing performant dotLottie/Lottie animations on the web (vanilla JS and React), including workers, state machines, and themin

Party Engine Skill

Guidance and examples for using the @cazala/party particle engine (engine lifecycle, modules, WebGPU vs CPU patterns) in custom apps.

Party Skill

Programmatic guide for the @cazala/party library: engine setup, modules, particle APIs, and performance tips for WebGPU and CPU runtimes.

Portfolio Optimization

Select and balance project portfolios using constraint-based mathematical optimization to maximize value under budget, resource, and strategic constraints.

Retour aux compétences