Rankings de modelos de IA

Los mejores modelos de IA, por tarea.

Rankings compuestos a partir de benchmarks publicados. Cada tabla elige la mezcla correcta de benchmarks para un trabajo — programación, razonamiento, matemáticas, visión, conocimiento, seguir instrucciones, o calidad-por-dólar.

HumanEval, MBPP y SWE-bench combinados.

Mejores modelos de IA para programación

Modelos clasificados por sus benchmarks de programación publicados. SWE-bench (bugs reales en repos open-source) lleva el mayor peso — predice el comportamiento como agente. Hum...

HUMANEVAL MBPP SWE BENCH
Ver ranking →
MMLU-Pro, GPQA Diamond y MATH.

Mejores modelos de IA para razonamiento

Compuesto de MMLU-Pro (conocimiento amplio en preguntas más duras), GPQA Diamond (ciencia de posgrado) y MATH (matemáticas de competición) — los tres benchmarks donde el razonam...

MMLU PRO GPQA MATH
Ver ranking →
MATH y GSM8K.

Mejores modelos de IA para matemáticas

MATH (problemas de competición, pruebas formales) pesa más; GSM8K (problemas escolares) marca el suelo. Los modelos que ganan ambos manejan álgebra, cálculo y aritmética en cadena.

MATH GSM8K
Ver ranking →
MMLU y MMLU-Pro combinados.

Mejores modelos de IA para conocimiento general

MMLU mide amplitud en 57 materias académicas; MMLU-Pro endurece el nivel sobre los mismos temas. Una puntuación alta significa que el modelo sabe mucho antes de razonar.

MMLU MMLU PRO
Ver ranking →
IFEval — ¿realmente hace lo que pides?

Mejores modelos de IA para seguir instrucciones

IFEval mide si un modelo obedece restricciones — número de palabras, formatos JSON, frases concretas. La puntuación que se traduce en fiabilidad de agente en producción.

IFEVAL
Ver ranking →
MMMU — razonamiento multimodal sobre imágenes.

Mejores modelos de IA para visión

MMMU evalúa modelos con preguntas a nivel universitario acompañadas de diagramas, gráficos e imágenes. Tomado de la submisión MMMU oficial de cada modelo.

MMMU
Ver ranking →
Calidad por dólar.

Modelos de IA capaces más baratos

Compuesto de MMLU y HumanEval dividido entre el precio API por millón de tokens de entrada. Los frontier cuestan mucho; esta lista muestra las opciones más baratas que aún rinde...

MMLU HUMANEVAL $ weighted
Ver ranking →