OkurAI

Benchmarks d'IA

Base de données de résultats de benchmarks présentant les performances des principaux modèles d'IA sur des tâches exigeantes. Comprend des résultats de benchmarks évalués par Epoch AI ainsi que des données collectées auprès de sources externes. Explorez les tendances au fil du temps, par benchmark ou par modèle.

Chargement des données...

Benchmarking updates

SEPTEMBER 29, 2025

Claude Sonnet 4.5 establishes new SOTA

Claude Sonnet 4.5 just established a new state-of-the-art performance in our evaluations of SWE-Bench Verified.

Learn more
JULY 11, 2025

Introducing FrontierMath Tier 4

A benchmark of extremely challenging research-level math problems, designed to test the limits of AI's reasoning capabilities.

Learn more
JULY 10, 2025

SWE-Bench Docker Registry

SWE-Bench can be tricky to run. We released a public registry of Docker containers that make it easy and fast.

Learn more