Raisonnement

HellaSwag

Test de raisonnement de bon sens pour compléter des scénarios

Créé: 01/05/2019

Mis à jour: 10/01/2024

Métriques

Précision

Statistiques

Modèles évalués

3

Score moyen

94.4%

Meilleur résultat

Modèle

Claude 3 Opus

Score

95.4%

Classement des modèles

Résultats triés par performance

Rang	Modèle	Score	Date
1	Claude 3 Opus	95.4%	04/03/2024
2	GPT-4	95.3%	14/03/2023
3	Gemini 1.5 Pro	92.5%	15/02/2024