IFEval — ¿realmente hace lo que pides?

Mejores modelos de IA para seguir instrucciones.

IFEval mide si un modelo obedece restricciones — número de palabras, formatos JSON, frases concretas. La puntuación que se traduce en fiabilidad de agente en producción.

Benchmarks usados: IFEVAL
# Modelo Puntuación Desde
1 92.1 Meta AI
2 88.6 Meta AI

Showing top 2 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Rankings de modelos de IA

More leaderboards.