IFEval — tut es wirklich, was du sagst?

Beste KI-Modelle fürs Instruction-Following.

IFEval bewertet, ob ein Modell Einschränkungen einhält — Wortzahlen, JSON-Formate, spezifische Phrasen. Der Score, der sich in produktive Agent-Zuverlässigkeit übersetzt.

Verwendete Benchmarks: IFEVAL

#	Modell	Score	Von
1	Llama 3.3 70B open	92.1	Meta AI
2	Llama 3.1 405B open	88.6	Meta AI

Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

KI-Modell-Bestenlisten

More leaderboards.

Beste KI-Modelle für Coding → Beste KI-Modelle fürs Reasoning → Beste KI-Modelle für Mathematik → Beste KI-Modelle für Allgemeinwissen → Beste KI-Modelle für Vision → Günstigste leistungsfähige KI-Modelle →