IFEval — mô hình có thực sự làm điều bạn yêu cầu không?
Mô hình AI tốt nhất cho làm theo chỉ dẫn.
IFEval chấm việc mô hình tuân thủ ràng buộc — số từ, định dạng JSON, cách diễn đạt cụ thể. Điểm phản ánh độ tin cậy của agent trong sản phẩm.
Benchmark được dùng:
IFEVAL
Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.