HumanEval, MBPP và SWE-bench kết hợp.

Mô hình AI tốt nhất cho lập trình.

Xếp hạng dựa trên benchmark lập trình. SWE-bench (lỗi thật trong repo open-source) được trọng số cao nhất vì dự báo hành vi agent. HumanEval (sinh hàm) và MBPP (chương trình Python nhỏ) đo năng lực sàn.

Benchmark được dùng: HUMANEVAL · 30% MBPP · 20% SWE BENCH · 50%

#	Mô hình	Điểm	Từ
1	Claude 3.5 Sonnet closed	92.0	Anthropic
2	Mistral Large 2 open	92.0	Mistral AI
3	Qwen 2.5 Coder 32B open	91.7	Alibaba (Qwen Team)
4	GPT-4o closed	90.2	OpenAI
5	DeepSeek R1 open	90.0	DeepSeek
6	Llama 3.1 405B open	89.0	Meta AI
7	Grok 3 closed	88.4	xAI
8	Llama 3.3 70B open	88.4	Meta AI
9	GPT-4o Mini closed	87.2	OpenAI
10	Qwen 2.5 72B open	86.6	Alibaba (Qwen Team)
11	Claude Haiku 4.5 closed	83.0	Anthropic
12	DeepSeek R1 Distill Llama 70B open	83.0	DeepSeek
13	DeepSeek V3 open	82.6	DeepSeek
14	Claude Sonnet 4.6 closed	82.6	Anthropic
15	GPT-5 closed	81.8	OpenAI
16	Gemma 3 27B open	81.0	Google DeepMind
17	Llama 3.1 70B open	80.5	Meta AI
18	DeepSeek R1 Distill Qwen 32B open	80.0	DeepSeek
19	Claude Opus 4.7 closed	79.8	Anthropic
20	Mixtral 8x22B open	76.0	Mistral AI
21	Gemini 2.5 Pro closed	72.7	Google DeepMind
22	Llama 3.1 8B open	72.6	Meta AI
23	Command R+ open	70.7	Cohere
24	Kimi K2 open	65.8	Moonshot AI

Showing top 24 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Bảng xếp hạng mô hình AI

More leaderboards.

Mô hình AI tốt nhất cho suy luận → Mô hình AI tốt nhất cho toán → Mô hình AI tốt nhất cho kiến thức tổng quát → Mô hình AI tốt nhất cho làm theo chỉ dẫn → Mô hình AI tốt nhất cho thị giác → Mô hình AI có năng lực rẻ nhất →