IFEval — 它真的照你说的做吗?
指令遵循最佳 AI 模型.
IFEval 评估模型是否遵守约束 — 字数、JSON 格式、特定措辞。可转化为生产 agent 可靠性的分数。
使用的基准:
IFEVAL
Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.
AI 模型排行榜