AI 模型排行榜
按任务的最佳 AI 模型。
来自已发布基准的综合排名。每个排行榜为一项任务选择正确的基准组合 — 编程、推理、数学、视觉、知识、指令遵循、或性价比。
HumanEval、MBPP 和 SWE-bench 综合。
编程最佳 AI 模型
按已发布的编程基准排名。SWE-bench(开源仓库中的真实 bug)权重最高 — 最能预测 agent 行为。HumanEval(函数合成)和 MBPP(小型 Python 程序)填底层能力。
HUMANEVAL
MBPP
SWE BENCH
查看排名 →
MMLU-Pro、GPQA Diamond 和 MATH。
推理最佳 AI 模型
MMLU-Pro(更难的广泛知识)、GPQA Diamond(研究生级科学)和 MATH(竞赛数学)的综合 — 推理技能最重要的三个基准。
MMLU PRO
GPQA
MATH
查看排名 →
MATH 和 GSM8K。
数学最佳 AI 模型
MATH(竞赛级问题、形式证明)权重最高,GSM8K(小学应用题)作为基础。两者都赢的模型可处理代数、微积分和思维链算术。
MATH
GSM8K
查看排名 →
MMLU 和 MMLU-Pro 综合。
通识最佳 AI 模型
MMLU 覆盖 57 个学科的广度;MMLU-Pro 在同样领域上提高难度。高分意味着模型在推理前就知道很多。
MMLU
MMLU PRO
查看排名 →
IFEval — 它真的照你说的做吗?
指令遵循最佳 AI 模型
IFEval 评估模型是否遵守约束 — 字数、JSON 格式、特定措辞。可转化为生产 agent 可靠性的分数。
IFEVAL
查看排名 →
MMMU — 跨图像的多模态推理。
视觉最佳 AI 模型
MMMU 用配有图表和图像的大学级问题评估模型。来自每个模型的官方 MMMU 提交。
MMMU
查看排名 →
每美元质量。
最便宜的能干 AI 模型
MMLU 和 HumanEval 综合除以每百万输入 token 的 API 价格。前沿模型很贵;此列表显示仍在基础上扎实的最便宜选项。
MMLU
HUMANEVAL
$ weighted
查看排名 →