HumanEval, MBPP et SWE-bench combinés.

Meilleurs modèles IA pour la programmation.

Modèles classés selon leurs benchmarks de programmation publiés. SWE-bench (bugs réels dans des dépôts open-source) a le poids le plus fort — il prédit le mieux le comportement en agent. HumanEval (synthèse de fonctions) et MBPP (petits programmes Python) couvrent le socle.

Benchmarks utilisés: HUMANEVAL · 30% MBPP · 20% SWE BENCH · 50%

Showing top 24 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

Classements de modèles IA

More leaderboards.