KI-Modell-Bestenlisten

Beste KI-Modelle, nach Aufgabe.

Kombinierte Rankings aus veröffentlichten Benchmarks. Jede Liste wählt den richtigen Benchmark-Mix für eine Aufgabe — Coding, Reasoning, Mathematik, Vision, Wissen, Instruction-Following oder Qualität pro Dollar.

HumanEval, MBPP und SWE-bench kombiniert.

Beste KI-Modelle für Coding

Modelle nach veröffentlichten Coding-Benchmarks gerankt. SWE-bench (echte Bugs in Open-Source-Repos) ist am stärksten gewichtet — es prognostiziert Agent-Verhalten am besten. Hu...

HUMANEVAL MBPP SWE BENCH
Ranking ansehen →
MMLU-Pro, GPQA Diamond und MATH.

Beste KI-Modelle fürs Reasoning

Eine Komposition aus MMLU-Pro (breites Wissen bei schwereren Fragen), GPQA Diamond (Naturwissenschaften auf Graduiertenniveau) und MATH (Wettbewerbsmathematik) — die drei Benchm...

MMLU PRO GPQA MATH
Ranking ansehen →
MATH und GSM8K.

Beste KI-Modelle für Mathematik

MATH (Wettbewerbsaufgaben, formale Beweise) am stärksten gewichtet, GSM8K (Grundschul-Textaufgaben) als Untergrenze. Modelle, die beide gewinnen, beherrschen Algebra, Analysis u...

MATH GSM8K
Ranking ansehen →
MMLU und MMLU-Pro kombiniert.

Beste KI-Modelle für Allgemeinwissen

MMLU misst Breite über 57 akademische Fächer; MMLU-Pro erhöht den Schwierigkeitsgrad. Hohe Werte bedeuten: das Modell weiß viel, bevor es überhaupt reasonen muss.

MMLU MMLU PRO
Ranking ansehen →
IFEval — tut es wirklich, was du sagst?

Beste KI-Modelle fürs Instruction-Following

IFEval bewertet, ob ein Modell Einschränkungen einhält — Wortzahlen, JSON-Formate, spezifische Phrasen. Der Score, der sich in produktive Agent-Zuverlässigkeit übersetzt.

IFEVAL
Ranking ansehen →
MMMU — multimodales Reasoning über Bilder.

Beste KI-Modelle für Vision

MMMU bewertet Modelle anhand von Hochschulfragen mit Diagrammen, Charts und Bildern. Aus den offiziellen MMMU-Einreichungen jedes Modells.

MMMU
Ranking ansehen →
Qualität pro Dollar.

Günstigste leistungsfähige KI-Modelle

Komposition aus MMLU und HumanEval geteilt durch API-Preis pro Million Input-Tokens. Frontier-Modelle kosten viel; diese Liste zeigt die günstigsten Optionen, die im Kern bestehen.

MMLU HUMANEVAL $ weighted
Ranking ansehen →