Los mejores modelos de IA, por tarea.
Rankings compuestos a partir de benchmarks publicados. Cada tabla elige la mezcla correcta de benchmarks para un trabajo — programación, razonamiento, matemáticas, visión, conocimiento, seguir instrucciones, o calidad-por-dólar.
Mejores modelos de IA para programación
Modelos clasificados por sus benchmarks de programación publicados. SWE-bench (bugs reales en repos open-source) lleva el mayor peso — predice el comportamiento como agente. Hum...
Mejores modelos de IA para razonamiento
Compuesto de MMLU-Pro (conocimiento amplio en preguntas más duras), GPQA Diamond (ciencia de posgrado) y MATH (matemáticas de competición) — los tres benchmarks donde el razonam...
Mejores modelos de IA para matemáticas
MATH (problemas de competición, pruebas formales) pesa más; GSM8K (problemas escolares) marca el suelo. Los modelos que ganan ambos manejan álgebra, cálculo y aritmética en cadena.
Mejores modelos de IA para conocimiento general
MMLU mide amplitud en 57 materias académicas; MMLU-Pro endurece el nivel sobre los mismos temas. Una puntuación alta significa que el modelo sabe mucho antes de razonar.
Mejores modelos de IA para seguir instrucciones
IFEval mide si un modelo obedece restricciones — número de palabras, formatos JSON, frases concretas. La puntuación que se traduce en fiabilidad de agente en producción.
Mejores modelos de IA para visión
MMMU evalúa modelos con preguntas a nivel universitario acompañadas de diagramas, gráficos e imágenes. Tomado de la submisión MMMU oficial de cada modelo.
Modelos de IA capaces más baratos
Compuesto de MMLU y HumanEval dividido entre el precio API por millón de tokens de entrada. Los frontier cuestan mucho; esta lista muestra las opciones más baratas que aún rinde...