AI 模型排行榜

按任务的最佳 AI 模型。

来自已发布基准的综合排名。每个排行榜为一项任务选择正确的基准组合 — 编程、推理、数学、视觉、知识、指令遵循、或性价比。

编程最佳 AI 模型

按已发布的编程基准排名。SWE-bench(开源仓库中的真实 bug)权重最高 — 最能预测 agent 行为。HumanEval(函数合成)和 MBPP(小型 Python 程序)填底层能力。

MMLU-Pro(更难的广泛知识)、GPQA Diamond(研究生级科学)和 MATH(竞赛数学)的综合 — 推理技能最重要的三个基准。

MATH(竞赛级问题、形式证明)权重最高,GSM8K(小学应用题)作为基础。两者都赢的模型可处理代数、微积分和思维链算术。

MMLU 覆盖 57 个学科的广度;MMLU-Pro 在同样领域上提高难度。高分意味着模型在推理前就知道很多。

IFEval 评估模型是否遵守约束 — 字数、JSON 格式、特定措辞。可转化为生产 agent 可靠性的分数。

MMMU 用配有图表和图像的大学级问题评估模型。来自每个模型的官方 MMMU 提交。

MMLU 和 HumanEval 综合除以每百万输入 token 的 API 价格。前沿模型很贵;此列表显示仍在基础上扎实的最便宜选项。