IFEval — 它真的照你说的做吗?

指令遵循最佳 AI 模型.

IFEval 评估模型是否遵守约束 — 字数、JSON 格式、特定措辞。可转化为生产 agent 可靠性的分数。

使用的基准: IFEVAL
# 模型 分数 来自
1 92.1 Meta AI
2 88.6 Meta AI

Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

AI 模型排行榜

More leaderboards.