AI Model Leaderboard

Compare AI models across agentic, reasoning, coding, and tool-use benchmarks.

Agentic Reasoning Coding Tool Use Computer Use

Benchmarks

agentic

reasoning

coding

tool-use

computer-use

LiveCodeBench

Holistic contamination-free coding benchmark using fresh LeetCode, AtCoder, and Codeforces problems. Covers code generation, self-repair, code execution, and test output prediction.

Coding18 models · % pass@1

Gemini 2.5 ProUndisclosed

gemma-4-26b-a4b25.2B total / 3.8B active

77.10% pass@1 8

o3-miniUndisclosed

76.20% pass@1 9

Gemini 2.5 FlashUndisclosed

73.40% pass@1 10

Claude Opus 4.6Undisclosed

67.40% pass@1 11

Claude Sonnet 4.6Undisclosed

65.40% pass@1 12

DeepSeek-V3671B

44.10% pass@1 13

gemma-4-e4b4.5B effective / 8B total

GPT-4o MiniUndisclosed

33.20% pass@1 17

gemma-4-e2b2.3B effective / 5.1B total

29.10% pass@1 18

Claude Haiku 4.5Undisclosed

22.40% pass@1