MMLU-Pro, GPQA Diamond et MATH.

Meilleurs modèles IA pour le raisonnement.

Composite de MMLU-Pro (connaissance large sur questions plus dures), GPQA Diamond (sciences niveau master) et MATH (mathématiques de compétition) — les trois benchmarks où le raisonnement compte le plus.

Benchmarks utilisés: MMLU PRO · 40% GPQA · 40% MATH · 20%

Showing top 22 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Classements de modèles IA

More leaderboards.