MATH y GSM8K.

Mejores modelos de IA para matemáticas.

MATH (problemas de competición, pruebas formales) pesa más; GSM8K (problemas escolares) marca el suelo. Los modelos que ganan ambos manejan álgebra, cálculo y aritmética en cadena.

Benchmarks usados: MATH · 70% GSM8K · 30%

Showing top 19 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Rankings de modelos de IA

More leaderboards.