HumanEval、MBPP 和 SWE-bench 综合。

编程最佳 AI 模型.

按已发布的编程基准排名。SWE-bench(开源仓库中的真实 bug)权重最高 — 最能预测 agent 行为。HumanEval(函数合成)和 MBPP(小型 Python 程序)填底层能力。

使用的基准: HUMANEVAL · 30% MBPP · 20% SWE BENCH · 50%

Showing top 24 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

AI 模型排行榜

More leaderboards.