MATH und GSM8K.

Beste KI-Modelle für Mathematik.

MATH (Wettbewerbsaufgaben, formale Beweise) am stärksten gewichtet, GSM8K (Grundschul-Textaufgaben) als Untergrenze. Modelle, die beide gewinnen, beherrschen Algebra, Analysis und Chain-of-Thought-Rechnen.

Verwendete Benchmarks: MATH · 70% GSM8K · 30%

#	Modell	Score	Von
1	DeepSeek R1 open	97.3	DeepSeek
2	GPT-5 closed	96.0	OpenAI
3	DeepSeek R1 Distill Llama 70B open	94.5	DeepSeek
4	DeepSeek R1 Distill Qwen 32B open	94.3	DeepSeek
5	DeepSeek R1 Distill Qwen 14B open	93.9	DeepSeek
6	Grok 3 closed	93.3	xAI
7	DeepSeek R1 Distill Qwen 7B open	92.8	DeepSeek
8	Gemini 2.5 Pro closed	92.0	Google DeepMind
9	DeepSeek V3 open	90.2	DeepSeek
10	Gemma 3 27B open	89.0	Google DeepMind
11	Claude Opus 4.7 closed	87.5	Anthropic
12	DeepSeek R1 Distill Qwen 1.5B open	83.9	DeepSeek
13	Qwen 2.5 72B open	83.1	Alibaba (Qwen Team)
14	Claude Sonnet 4.6 closed	82.0	Anthropic
15	Llama 3.3 70B open	77.0	Meta AI
16	GPT-4o closed	76.6	OpenAI
17	Llama 3.1 405B open	73.8	Meta AI
18	Mistral Large 2 open	73.0	Mistral AI
19	Mixtral 8x22B open	41.8	Mistral AI

Showing top 19 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

KI-Modell-Bestenlisten

More leaderboards.

Beste KI-Modelle für Coding → Beste KI-Modelle fürs Reasoning → Beste KI-Modelle für Allgemeinwissen → Beste KI-Modelle fürs Instruction-Following → Beste KI-Modelle für Vision → Günstigste leistungsfähige KI-Modelle →