HumanEval, MBPP và SWE-bench kết hợp.

Mô hình AI tốt nhất cho lập trình.

Xếp hạng dựa trên benchmark lập trình. SWE-bench (lỗi thật trong repo open-source) được trọng số cao nhất vì dự báo hành vi agent. HumanEval (sinh hàm) và MBPP (chương trình Python nhỏ) đo năng lực sàn.

Benchmark được dùng: HUMANEVAL · 30% MBPP · 20% SWE BENCH · 50%

Showing top 24 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Bảng xếp hạng mô hình AI

More leaderboards.