IFEval — mô hình có thực sự làm điều bạn yêu cầu không?

Mô hình AI tốt nhất cho làm theo chỉ dẫn.

IFEval chấm việc mô hình tuân thủ ràng buộc — số từ, định dạng JSON, cách diễn đạt cụ thể. Điểm phản ánh độ tin cậy của agent trong sản phẩm.

Benchmark được dùng: IFEVAL
# Mô hình Điểm Từ
1 92.1 Meta AI
2 88.6 Meta AI

Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Bảng xếp hạng mô hình AI

More leaderboards.