OkurAI

FrontierMath — IA face à la recherche mathématique avancée

Un benchmark de plusieurs centaines de problèmes mathématiques inédits de niveau expert qui prennent des heures à des jours aux spécialistes pour être résolus. Les niveaux de difficulté 1-3 couvrent les problèmes de premier cycle universitaire jusqu'au début des cycles supérieurs, tandis que le niveau 4 concerne les mathématiques de niveau recherche. Projet mené par Epoch et OpenAI.

Performance des modèles d'IA sur FrontierMath

OpenAI
Anthropic
Google
xAI
CC-BY

Classement FrontierMath

Modèle ↕Précision ↓
GPT-5 (high)
12.5%
GPT-5 Pro
12.5%
Gemini 2.5 Deep Think
10.4%
GPT-5 mini (high)
6.3%
GPT-5 (medium)
6.3%
o4-mini (high)
6.3%
Claude Sonnet 4.5 (32k thinking)
4.2%
GPT-5 mini (medium)
4.2%
Claude Opus 4.1 (27K thinking)
4.2%
Gemini 2.5 Pro
4.2%
o3-mini (high)
4.2%
Claude Opus 4 (27K thinking)
4.2%
Claude Haiku 4.5 (32K thinking)
2.1%
Claude Sonnet 4.5 (no thinking)
2.1%
Grok 4
2.1%