AI Model Leaderboard

Compare AI models across agentic, reasoning, coding, and tool-use benchmarks.

Agentic Reasoning Coding Tool Use Computer Use

Benchmarks

agentic

reasoning

coding

tool-use

computer-use

VisualWebArena

910 visually grounded web tasks requiring multimodal reasoning — agents must interpret images alongside text to navigate shopping, classifieds, and Reddit environments.

Agentic8 models · % success

Gemini 2.5 FlashUndisclosed

Llama-3.1-70B-Instruct70B

16.70% success 5

Gemini 1.5 ProUndisclosed

11.98% success 6

Gemini 1.5 FlashUndisclosed

6.59% success 7

Mixtral-8x7B-Instruct-v0.147B

1.87% success 8

Llama-2-70b-chat-hf70B

1.10% success