MMLU-Pro, GPQA Diamond và MATH.

Mô hình AI tốt nhất cho suy luận.

Tổng hợp MMLU-Pro (kiến thức rộng, câu hỏi khó hơn), GPQA Diamond (khoa học cấp sau đại học), và MATH (toán cạnh tranh) — ba benchmark mà kỹ năng suy luận quan trọng nhất.

Benchmark được dùng: MMLU PRO · 40% GPQA · 40% MATH · 20%

Showing top 22 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Bảng xếp hạng mô hình AI

More leaderboards.