Classement des modèles IA
Comparez les modèles IA sur les benchmarks agentiques, de raisonnement, de codage et d'utilisation d'outils.
Benchmarks
agentic
reasoning
coding
tool-use
computer-use
CORE-Bench Hard
Reproducing computational research papers end-to-end — coding, running experiments, verifying results. Hard difficulty requires full reproduction with correct output. Scientific programming benchmark from HAL.
Coding2 modèles · % reproduced