Mô hình AI tốt nhất, theo tác vụ.
Xếp hạng tổng hợp từ các benchmark công bố. Mỗi bảng chọn đúng tổ hợp benchmark cho một công việc — lập trình, suy luận, toán, thị giác, kiến thức, làm theo chỉ dẫn, hoặc chất lượng-trên-giá.
Mô hình AI tốt nhất cho lập trình
Xếp hạng dựa trên benchmark lập trình. SWE-bench (lỗi thật trong repo open-source) được trọng số cao nhất vì dự báo hành vi agent. HumanEval (sinh hàm) và MBPP (chương trình Pyt...
Mô hình AI tốt nhất cho suy luận
Tổng hợp MMLU-Pro (kiến thức rộng, câu hỏi khó hơn), GPQA Diamond (khoa học cấp sau đại học), và MATH (toán cạnh tranh) — ba benchmark mà kỹ năng suy luận quan trọng nhất.
Mô hình AI tốt nhất cho toán
MATH (bài toán cạnh tranh, chứng minh) trọng số cao nhất, GSM8K (toán cấp tiểu học) làm sàn. Mô hình thắng cả hai xử lý tốt đại số, giải tích, và toán chuỗi-suy-nghĩ.
Mô hình AI tốt nhất cho kiến thức tổng quát
MMLU đo độ rộng qua 57 môn học; MMLU-Pro nâng độ khó trên cùng các lĩnh vực. Điểm cao nghĩa là mô hình biết nhiều trước khi cần suy luận.
Mô hình AI tốt nhất cho làm theo chỉ dẫn
IFEval chấm việc mô hình tuân thủ ràng buộc — số từ, định dạng JSON, cách diễn đạt cụ thể. Điểm phản ánh độ tin cậy của agent trong sản phẩm.
Mô hình AI tốt nhất cho thị giác
MMMU đánh giá mô hình trên câu hỏi cấp đại học kết hợp biểu đồ, sơ đồ và hình ảnh. Lấy từ submission MMMU chính thức của mỗi mô hình.
Mô hình AI có năng lực rẻ nhất
Tổng hợp MMLU và HumanEval chia cho giá API mỗi triệu token đầu vào. Mô hình tiên phong tốn nhiều; danh sách này cho lựa chọn rẻ nhất vẫn vững các cơ bản.