MMLU-Pro, GPQA Diamond und MATH.

Beste KI-Modelle fürs Reasoning.

Eine Komposition aus MMLU-Pro (breites Wissen bei schwereren Fragen), GPQA Diamond (Naturwissenschaften auf Graduiertenniveau) und MATH (Wettbewerbsmathematik) — die drei Benchmarks, bei denen Reasoning entscheidet.

Verwendete Benchmarks: MMLU PRO · 40% GPQA · 40% MATH · 20%

Showing top 22 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

KI-Modell-Bestenlisten

More leaderboards.