Bảng xếp hạng mô hình AI

Mô hình AI tốt nhất, theo tác vụ.

Xếp hạng tổng hợp từ các benchmark công bố. Mỗi bảng chọn đúng tổ hợp benchmark cho một công việc — lập trình, suy luận, toán, thị giác, kiến thức, làm theo chỉ dẫn, hoặc chất lượng-trên-giá.

HumanEval, MBPP và SWE-bench kết hợp.

Mô hình AI tốt nhất cho lập trình

Xếp hạng dựa trên benchmark lập trình. SWE-bench (lỗi thật trong repo open-source) được trọng số cao nhất vì dự báo hành vi agent. HumanEval (sinh hàm) và MBPP (chương trình Pyt...

HUMANEVAL MBPP SWE BENCH

Xem xếp hạng →

MMLU-Pro, GPQA Diamond và MATH.

Mô hình AI tốt nhất cho suy luận

Tổng hợp MMLU-Pro (kiến thức rộng, câu hỏi khó hơn), GPQA Diamond (khoa học cấp sau đại học), và MATH (toán cạnh tranh) — ba benchmark mà kỹ năng suy luận quan trọng nhất.

MMLU PRO GPQA MATH

Xem xếp hạng →

MATH và GSM8K.

Mô hình AI tốt nhất cho toán

MATH (bài toán cạnh tranh, chứng minh) trọng số cao nhất, GSM8K (toán cấp tiểu học) làm sàn. Mô hình thắng cả hai xử lý tốt đại số, giải tích, và toán chuỗi-suy-nghĩ.

MATH GSM8K

Xem xếp hạng →

MMLU và MMLU-Pro kết hợp.

Mô hình AI tốt nhất cho kiến thức tổng quát

MMLU đo độ rộng qua 57 môn học; MMLU-Pro nâng độ khó trên cùng các lĩnh vực. Điểm cao nghĩa là mô hình biết nhiều trước khi cần suy luận.

MMLU MMLU PRO

Xem xếp hạng →

IFEval — mô hình có thực sự làm điều bạn yêu cầu không?

Mô hình AI tốt nhất cho làm theo chỉ dẫn

IFEval chấm việc mô hình tuân thủ ràng buộc — số từ, định dạng JSON, cách diễn đạt cụ thể. Điểm phản ánh độ tin cậy của agent trong sản phẩm.

IFEVAL

Xem xếp hạng →

MMMU — suy luận đa phương thức trên hình ảnh.

Mô hình AI tốt nhất cho thị giác

MMMU đánh giá mô hình trên câu hỏi cấp đại học kết hợp biểu đồ, sơ đồ và hình ảnh. Lấy từ submission MMMU chính thức của mỗi mô hình.

MMMU

Xem xếp hạng →

Chất lượng trên mỗi đô-la.

Mô hình AI có năng lực rẻ nhất

Tổng hợp MMLU và HumanEval chia cho giá API mỗi triệu token đầu vào. Mô hình tiên phong tốn nhiều; danh sách này cho lựa chọn rẻ nhất vẫn vững các cơ bản.

MMLU HUMANEVAL $ weighted

Xem xếp hạng →