Meilleurs modèles IA, par tâche.
Classements composites à partir de benchmarks publiés. Chaque tableau choisit le bon mélange de benchmarks pour un travail — programmation, raisonnement, mathématiques, vision, connaissance, suivi d'instructions, ou qualité-par-dollar.
Meilleurs modèles IA pour la programmation
Modèles classés selon leurs benchmarks de programmation publiés. SWE-bench (bugs réels dans des dépôts open-source) a le poids le plus fort — il prédit le mieux le comportement ...
Meilleurs modèles IA pour le raisonnement
Composite de MMLU-Pro (connaissance large sur questions plus dures), GPQA Diamond (sciences niveau master) et MATH (mathématiques de compétition) — les trois benchmarks où le ra...
Meilleurs modèles IA pour les mathématiques
MATH (problèmes de compétition, preuves formelles) le plus pondéré, GSM8K (problèmes de niveau primaire) comme plancher. Les modèles qui gagnent les deux gèrent algèbre, calcul ...
Meilleurs modèles IA pour la connaissance générale
MMLU mesure l'étendue sur 57 matières académiques; MMLU-Pro durcit le même périmètre. Un score élevé signifie que le modèle sait beaucoup avant de devoir raisonner.
Meilleurs modèles IA pour suivre des instructions
IFEval évalue si un modèle respecte des contraintes — nombre de mots, formats JSON, formulations précises. Le score qui se traduit en fiabilité d'agent en production.
Meilleurs modèles IA pour la vision
MMMU évalue les modèles sur des questions de niveau universitaire accompagnées de diagrammes, graphiques et images. Issu de la soumission MMMU officielle de chaque modèle.
Modèles IA capables les moins chers
Composite de MMLU et HumanEval divisé par le prix API par million de tokens d'entrée. Les modèles frontière coûtent cher; cette liste fait remonter les options les moins chères ...