IFEval — ¿realmente hace lo que pides?
Mejores modelos de IA para seguir instrucciones.
IFEval mide si un modelo obedece restricciones — número de palabras, formatos JSON, frases concretas. La puntuación que se traduce en fiabilidad de agente en producción.
Benchmarks usados:
IFEVAL
Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.