IFEval — tut es wirklich, was du sagst?

Beste KI-Modelle fürs Instruction-Following.

IFEval bewertet, ob ein Modell Einschränkungen einhält — Wortzahlen, JSON-Formate, spezifische Phrasen. Der Score, der sich in produktive Agent-Zuverlässigkeit übersetzt.

Verwendete Benchmarks: IFEVAL
# Modell Score Von
1 92.1 Meta AI
2 88.6 Meta AI

Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

KI-Modell-Bestenlisten

More leaderboards.