MATH und GSM8K.

Beste KI-Modelle für Mathematik.

MATH (Wettbewerbsaufgaben, formale Beweise) am stärksten gewichtet, GSM8K (Grundschul-Textaufgaben) als Untergrenze. Modelle, die beide gewinnen, beherrschen Algebra, Analysis und Chain-of-Thought-Rechnen.

Verwendete Benchmarks: MATH · 70% GSM8K · 30%

Showing top 19 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

KI-Modell-Bestenlisten

More leaderboards.