MMLU-Pro、GPQA Diamond 和 MATH。

推理最佳 AI 模型.

MMLU-Pro(更难的广泛知识)、GPQA Diamond(研究生级科学)和 MATH(竞赛数学)的综合 — 推理技能最重要的三个基准。

使用的基准: MMLU PRO · 40% GPQA · 40% MATH · 20%

Showing top 22 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

AI 模型排行榜

More leaderboards.