IFEval — tut es wirklich, was du sagst?
Beste KI-Modelle fürs Instruction-Following.
IFEval bewertet, ob ein Modell Einschränkungen einhält — Wortzahlen, JSON-Formate, spezifische Phrasen. Der Score, der sich in produktive Agent-Zuverlässigkeit übersetzt.
Verwendete Benchmarks:
IFEVAL
Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.