MMLU-Pro, GPQA Diamond y MATH.

Mejores modelos de IA para razonamiento.

Compuesto de MMLU-Pro (conocimiento amplio en preguntas más duras), GPQA Diamond (ciencia de posgrado) y MATH (matemáticas de competición) — los tres benchmarks donde el razonamiento más importa.

Benchmarks usados: MMLU PRO · 40% GPQA · 40% MATH · 20%

Showing top 22 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Rankings de modelos de IA

More leaderboards.