MMLU-Pro, GPQA Diamond và MATH.

Mô hình AI tốt nhất cho suy luận.

Tổng hợp MMLU-Pro (kiến thức rộng, câu hỏi khó hơn), GPQA Diamond (khoa học cấp sau đại học), và MATH (toán cạnh tranh) — ba benchmark mà kỹ năng suy luận quan trọng nhất.

Benchmark được dùng: MMLU PRO · 40% GPQA · 40% MATH · 20%

#	Mô hình	Điểm	Từ
1	DeepSeek R1 Distill Qwen 32B open	94.3	DeepSeek
2	DeepSeek R1 Distill Qwen 14B open	93.9	DeepSeek
3	DeepSeek R1 Distill Qwen 7B open	92.8	DeepSeek
4	Grok 3 closed	84.5	xAI
5	DeepSeek R1 Distill Qwen 1.5B open	83.9	DeepSeek
6	GPT-5 closed	82.6	OpenAI
7	DeepSeek R1 open	81.7	DeepSeek
8	Kimi K2 open	78.5	Moonshot AI
9	DeepSeek R1 Distill Llama 70B open	78.2	DeepSeek
10	Claude Opus 4.7 closed	77.9	Anthropic
11	Gemini 2.5 Pro closed	76.8	Google DeepMind
12	Mistral Large 2 open	73.0	Mistral AI
13	DeepSeek V3 open	72.0	DeepSeek
14	Claude Sonnet 4.6 closed	71.2	Anthropic
15	Qwen 2.5 72B open	64.7	Alibaba (Qwen Team)
16	Llama 3.1 405B open	64.5	Meta AI
17	Llama 3.3 70B open	63.2	Meta AI
18	Gemma 3 27B open	61.8	Google DeepMind
19	GPT-4o closed	61.3	OpenAI
20	Claude Haiku 4.5 closed	42.0	Anthropic
21	Mixtral 8x22B open	41.8	Mistral AI
22	Llama 3.1 8B open	32.8	Meta AI

Showing top 22 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Bảng xếp hạng mô hình AI

More leaderboards.

Mô hình AI tốt nhất cho lập trình → Mô hình AI tốt nhất cho toán → Mô hình AI tốt nhất cho kiến thức tổng quát → Mô hình AI tốt nhất cho làm theo chỉ dẫn → Mô hình AI tốt nhất cho thị giác → Mô hình AI có năng lực rẻ nhất →