Beste KI-Modelle, nach Aufgabe.
Kombinierte Rankings aus veröffentlichten Benchmarks. Jede Liste wählt den richtigen Benchmark-Mix für eine Aufgabe — Coding, Reasoning, Mathematik, Vision, Wissen, Instruction-Following oder Qualität pro Dollar.
Beste KI-Modelle für Coding
Modelle nach veröffentlichten Coding-Benchmarks gerankt. SWE-bench (echte Bugs in Open-Source-Repos) ist am stärksten gewichtet — es prognostiziert Agent-Verhalten am besten. Hu...
Beste KI-Modelle fürs Reasoning
Eine Komposition aus MMLU-Pro (breites Wissen bei schwereren Fragen), GPQA Diamond (Naturwissenschaften auf Graduiertenniveau) und MATH (Wettbewerbsmathematik) — die drei Benchm...
Beste KI-Modelle für Mathematik
MATH (Wettbewerbsaufgaben, formale Beweise) am stärksten gewichtet, GSM8K (Grundschul-Textaufgaben) als Untergrenze. Modelle, die beide gewinnen, beherrschen Algebra, Analysis u...
Beste KI-Modelle für Allgemeinwissen
MMLU misst Breite über 57 akademische Fächer; MMLU-Pro erhöht den Schwierigkeitsgrad. Hohe Werte bedeuten: das Modell weiß viel, bevor es überhaupt reasonen muss.
Beste KI-Modelle fürs Instruction-Following
IFEval bewertet, ob ein Modell Einschränkungen einhält — Wortzahlen, JSON-Formate, spezifische Phrasen. Der Score, der sich in produktive Agent-Zuverlässigkeit übersetzt.
Beste KI-Modelle für Vision
MMMU bewertet Modelle anhand von Hochschulfragen mit Diagrammen, Charts und Bildern. Aus den offiziellen MMMU-Einreichungen jedes Modells.
Günstigste leistungsfähige KI-Modelle
Komposition aus MMLU und HumanEval geteilt durch API-Preis pro Million Input-Tokens. Frontier-Modelle kosten viel; diese Liste zeigt die günstigsten Optionen, die im Kern bestehen.