Classement des modèles IA

Comparez les modèles IA sur les benchmarks agentiques, de raisonnement, de codage et d'utilisation d'outils.

Agentic Reasoning Coding Tool Use Computer Use

Benchmarks

agentic

reasoning

coding

tool-use

computer-use

OSWorld

369 real-world desktop OS tasks across Ubuntu, Windows, and macOS — file management, app usage, terminal commands. Tests long-horizon planning for computer-use agents.

Computer Use4 modèles · % success

Claude Sonnet 4.6Undisclosed