Benchmarks d'IA
Base de données de résultats de benchmarks présentant les performances des principaux modèles d'IA sur des tâches exigeantes. Comprend des résultats de benchmarks évalués par Epoch AI ainsi que des données collectées auprès de sources externes. Explorez les tendances au fil du temps, par benchmark ou par modèle.
Chargement des données...
Benchmarking updates
SEPTEMBER 29, 2025
Claude Sonnet 4.5 establishes new SOTA
Claude Sonnet 4.5 just established a new state-of-the-art performance in our evaluations of SWE-Bench Verified.
Learn moreJULY 11, 2025
Introducing FrontierMath Tier 4
A benchmark of extremely challenging research-level math problems, designed to test the limits of AI's reasoning capabilities.
Learn moreJULY 10, 2025
SWE-Bench Docker Registry
SWE-Bench can be tricky to run. We released a public registry of Docker containers that make it easy and fast.
Learn more