IFEval — fait-il vraiment ce que vous demandez ?
Meilleurs modèles IA pour suivre des instructions.
IFEval évalue si un modèle respecte des contraintes — nombre de mots, formats JSON, formulations précises. Le score qui se traduit en fiabilité d'agent en production.
Benchmarks utilisés:
IFEVAL
Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.
Classements de modèles IA