HumanEval, MBPP y SWE-bench combinados.

Mejores modelos de IA para programación.

Modelos clasificados por sus benchmarks de programación publicados. SWE-bench (bugs reales en repos open-source) lleva el mayor peso — predice el comportamiento como agente. HumanEval (síntesis de funciones) y MBPP (programas Python pequeños) cubren la base.

Benchmarks usados: HUMANEVAL · 30% MBPP · 20% SWE BENCH · 50%

Showing top 24 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Rankings de modelos de IA

More leaderboards.