Classements de modèles IA

Meilleurs modèles IA, par tâche.

Classements composites à partir de benchmarks publiés. Chaque tableau choisit le bon mélange de benchmarks pour un travail — programmation, raisonnement, mathématiques, vision, connaissance, suivi d'instructions, ou qualité-par-dollar.

HumanEval, MBPP et SWE-bench combinés.

Meilleurs modèles IA pour la programmation

Modèles classés selon leurs benchmarks de programmation publiés. SWE-bench (bugs réels dans des dépôts open-source) a le poids le plus fort — il prédit le mieux le comportement ...

HUMANEVAL MBPP SWE BENCH

Voir le classement →

MMLU-Pro, GPQA Diamond et MATH.

Meilleurs modèles IA pour le raisonnement

Composite de MMLU-Pro (connaissance large sur questions plus dures), GPQA Diamond (sciences niveau master) et MATH (mathématiques de compétition) — les trois benchmarks où le ra...

MMLU PRO GPQA MATH

Voir le classement →

MATH et GSM8K.

Meilleurs modèles IA pour les mathématiques

MATH (problèmes de compétition, preuves formelles) le plus pondéré, GSM8K (problèmes de niveau primaire) comme plancher. Les modèles qui gagnent les deux gèrent algèbre, calcul ...

MATH GSM8K

Voir le classement →

MMLU et MMLU-Pro combinés.

Meilleurs modèles IA pour la connaissance générale

MMLU mesure l'étendue sur 57 matières académiques; MMLU-Pro durcit le même périmètre. Un score élevé signifie que le modèle sait beaucoup avant de devoir raisonner.

MMLU MMLU PRO

Voir le classement →

IFEval — fait-il vraiment ce que vous demandez ?

Meilleurs modèles IA pour suivre des instructions

IFEval évalue si un modèle respecte des contraintes — nombre de mots, formats JSON, formulations précises. Le score qui se traduit en fiabilité d'agent en production.

IFEVAL

Voir le classement →

MMMU — raisonnement multimodal sur images.

Meilleurs modèles IA pour la vision

MMMU évalue les modèles sur des questions de niveau universitaire accompagnées de diagrammes, graphiques et images. Issu de la soumission MMMU officielle de chaque modèle.

MMMU

Voir le classement →

Qualité par dollar.

Modèles IA capables les moins chers

Composite de MMLU et HumanEval divisé par le prix API par million de tokens d'entrée. Les modèles frontière coûtent cher; cette liste fait remonter les options les moins chères ...

MMLU HUMANEVAL $ weighted

Voir le classement →