OkurAI
Data Insight17 mai 2026

Claude surperforme en software engineering et sous-performe en mathématiques

Sur 14 générations de modèles Anthropic, le même schéma se répète : les Claude sont systématiquement meilleurs que la moyenne en code, et plus faibles en maths. L'écart se resserre toutefois sur les dernières générations.

Alexander Barry
Rayane Moumni

Article écrit par Alexander Barry et Rayane Moumni

Comparés à leur ECI général (Capabilities Index), les modèles Claude d'Anthropic surperforment sur les benchmarks de software engineering (agrégés par l'SWE-ECI) et sous-performent en mathématiques (Math-ECI). Cette surperformance en code est restée constante sur la plupart des générations et persiste sur les modèles récents.

L'écart en mathématiques pourrait se réduire — Opus 4.6 et 4.7 affichent tous deux un Math-ECI dans un point de leur ECI général, contre des écarts bien plus larges sur les anciens modèles.

ECI général
ECI software engineering
ECI mathématiques

Score ECI

125130135140145150155160Opus 4.7Opus 4.6Sonnet 4.6Opus 4.5Sonnet 4.5Opus 4.1Opus 4Haiku 4.5Sonnet 43.7 Sonnet3.5 Sonnet (Oct. '24)3.5 Sonnet3.5 Haiku3 Opus

En moyenne, les modèles Claude affichent un ECI software engineering supérieur de 2,7 points à leur ECI général et un ECI mathématiques inférieur de 1,8 point.

OkurAI|CC-BY

Données et analyses publiées par OkurAI. Libre d'utilisation, de distribution et de reproduction sous licence Creative Commons BY.

En savoir plus sur ce graphique

En utilisant les scores ECI par domaine, nous comparons les capacités relatives en mathématiques et en software engineering des modèles Claude d'Anthropic en regardant leur ECI général, leur Math-ECI et leur SWE-ECI. Nous incluons uniquement les modèles d'Anthropic disposant d'au moins 2 benchmarks math et 2 benchmarks SWE parmi la sélection utilisée pour calculer l'ECI.

La méthodologie ECI compare les performances relativement aux autres grands modèles de langage, et reflète donc la difficulté moyenne des tâches pour les IA, pas pour les humains.

Données

Les scores ECI par domaine permettent de comparer la performance d'un modèle par rapport aux autres modèles disponibles à un instant donné, mais ne permettent pas de suivre la progression absolue des capacités dans un domaine donné dans le temps.

Tous les modèles inclus dans cette analyse disposent d'au moins deux scores dans chaque domaine, avec une moyenne de 3,2 benchmarks SWE et 3,4 benchmarks math par modèle. Le ratio le plus extrême observé est de 4 benchmarks math pour 2 benchmarks SWE.

Les benchmarks utilisés couvrent un large spectre : GSM8K, MATH, AIME, et FrontierMath pour les mathématiques ; SWE-Bench Verified, Aider Polyglot, et Terminal-Bench pour le software engineering.

Hypothèses et limites

Les modèles diffèrent par le nombre de benchmarks math et SWE pour lesquels ils ont des résultats publiés. Si un modèle a un nombre disproportionné de benchmarks math, ces derniers auront un poids plus grand dans son ECI général — ce qui peut introduire un biais lors de la comparaison Math-ECI vs ECI général.

Les scores Math-ECI et SWE-ECI ne sont pas comparables entre eux dans l'absolu : ils mesurent la position relative d'un modèle dans son domaine, et la difficulté moyenne des benchmarks de chaque domaine peut différer.

Enfin, certains benchmarks SWE comme SWE-Bench Verified peuvent avantager les modèles entraînés avec un focus sur l'agentique et l'utilisation d'outils — un terrain sur lequel Anthropic investit particulièrement.

Article publié par OkurAI, 17 mai 2026. Reproductible sous licence Creative Commons BY.

À propos des auteurs

Alexander Barry

Alexander Barry

Alexander Barry est analyste spécialisé dans l'évaluation des capacités des modèles d'intelligence artificielle. Ses travaux portent sur la construction d'indices composites et leur utilisation pour suivre la progression des frontières de l'IA.

Rayane Moumni

Rayane Moumni

Rayane Moumni, fondateur d'OkurAI, premier observatoire et think tank français spécialisé dans l'analyse de l'intelligence artificielle. Multi-entrepreneur et chercheur sur l'IA.