AI Model Leaderboard

Compare AI models across agentic, reasoning, coding, and tool-use benchmarks.

Agentic Reasoning Coding Tool Use Computer Use

Benchmarks

agentic

reasoning

coding

tool-use

computer-use

CORE-Bench Hard

Reproducing computational research papers end-to-end — coding, running experiments, verifying results. Hard difficulty requires full reproduction with correct output. Scientific programming benchmark from HAL.

Coding2 models · % reproduced

Claude Opus 4.6Undisclosed

77.80% reproduced 2

Claude Sonnet 4.6Undisclosed

62.20% reproduced