Comparés à leur ECI général (Capabilities Index), les modèles Claude d'Anthropic surperforment sur les benchmarks de software engineering (agrégés par l'SWE-ECI) et sous-performent en mathématiques (Math-ECI). Cette surperformance en code est restée constante sur la plupart des générations et persiste sur les modèles récents.
L'écart en mathématiques pourrait se réduire — Opus 4.6 et 4.7 affichent tous deux un Math-ECI dans un point de leur ECI général, contre des écarts bien plus larges sur les anciens modèles.
Score ECI
En moyenne, les modèles Claude affichent un ECI software engineering supérieur de 2,7 points à leur ECI général et un ECI mathématiques inférieur de 1,8 point.
Données et analyses publiées par OkurAI. Libre d'utilisation, de distribution et de reproduction sous licence Creative Commons BY.
En savoir plus sur ce graphique
En utilisant les scores ECI par domaine, nous comparons les capacités relatives en mathématiques et en software engineering des modèles Claude d'Anthropic en regardant leur ECI général, leur Math-ECI et leur SWE-ECI. Nous incluons uniquement les modèles d'Anthropic disposant d'au moins 2 benchmarks math et 2 benchmarks SWE parmi la sélection utilisée pour calculer l'ECI.
La méthodologie ECI compare les performances relativement aux autres grands modèles de langage, et reflète donc la difficulté moyenne des tâches pour les IA, pas pour les humains.
Données
Les scores ECI par domaine permettent de comparer la performance d'un modèle par rapport aux autres modèles disponibles à un instant donné, mais ne permettent pas de suivre la progression absolue des capacités dans un domaine donné dans le temps.
Tous les modèles inclus dans cette analyse disposent d'au moins deux scores dans chaque domaine, avec une moyenne de 3,2 benchmarks SWE et 3,4 benchmarks math par modèle. Le ratio le plus extrême observé est de 4 benchmarks math pour 2 benchmarks SWE.
Les benchmarks utilisés couvrent un large spectre : GSM8K, MATH, AIME, et FrontierMath pour les mathématiques ; SWE-Bench Verified, Aider Polyglot, et Terminal-Bench pour le software engineering.
Hypothèses et limites
Les modèles diffèrent par le nombre de benchmarks math et SWE pour lesquels ils ont des résultats publiés. Si un modèle a un nombre disproportionné de benchmarks math, ces derniers auront un poids plus grand dans son ECI général — ce qui peut introduire un biais lors de la comparaison Math-ECI vs ECI général.
Les scores Math-ECI et SWE-ECI ne sont pas comparables entre eux dans l'absolu : ils mesurent la position relative d'un modèle dans son domaine, et la difficulté moyenne des benchmarks de chaque domaine peut différer.
Enfin, certains benchmarks SWE comme SWE-Bench Verified peuvent avantager les modèles entraînés avec un focus sur l'agentique et l'utilisation d'outils — un terrain sur lequel Anthropic investit particulièrement.
Article publié par OkurAI, 17 mai 2026. Reproductible sous licence Creative Commons BY.

