AI 模型排行榜

按任务的最佳 AI 模型。

来自已发布基准的综合排名。每个排行榜为一项任务选择正确的基准组合 — 编程、推理、数学、视觉、知识、指令遵循、或性价比。

HumanEval、MBPP 和 SWE-bench 综合。

编程最佳 AI 模型

按已发布的编程基准排名。SWE-bench(开源仓库中的真实 bug)权重最高 — 最能预测 agent 行为。HumanEval(函数合成)和 MBPP(小型 Python 程序)填底层能力。

HUMANEVAL MBPP SWE BENCH
查看排名 →
MMLU-Pro、GPQA Diamond 和 MATH。

推理最佳 AI 模型

MMLU-Pro(更难的广泛知识)、GPQA Diamond(研究生级科学)和 MATH(竞赛数学)的综合 — 推理技能最重要的三个基准。

MMLU PRO GPQA MATH
查看排名 →
MATH 和 GSM8K。

数学最佳 AI 模型

MATH(竞赛级问题、形式证明)权重最高,GSM8K(小学应用题)作为基础。两者都赢的模型可处理代数、微积分和思维链算术。

MATH GSM8K
查看排名 →
MMLU 和 MMLU-Pro 综合。

通识最佳 AI 模型

MMLU 覆盖 57 个学科的广度;MMLU-Pro 在同样领域上提高难度。高分意味着模型在推理前就知道很多。

MMLU MMLU PRO
查看排名 →
IFEval — 它真的照你说的做吗?

指令遵循最佳 AI 模型

IFEval 评估模型是否遵守约束 — 字数、JSON 格式、特定措辞。可转化为生产 agent 可靠性的分数。

IFEVAL
查看排名 →
MMMU — 跨图像的多模态推理。

视觉最佳 AI 模型

MMMU 用配有图表和图像的大学级问题评估模型。来自每个模型的官方 MMMU 提交。

MMMU
查看排名 →
每美元质量。

最便宜的能干 AI 模型

MMLU 和 HumanEval 综合除以每百万输入 token 的 API 价格。前沿模型很贵;此列表显示仍在基础上扎实的最便宜选项。

MMLU HUMANEVAL $ weighted
查看排名 →