Raisonnement
HellaSwag
Test de raisonnement de bon sens pour compléter des scénarios
Créé: 01/05/2019
Mis à jour: 10/01/2024
Métriques
- Précision
Statistiques
Modèles évalués
3
Score moyen
94.4%
Meilleur résultat
Modèle
Claude 3 Opus
Score
95.4%
Classement des modèles
Résultats triés par performance
| Rang | Modèle | Score | Date |
|---|---|---|---|
| 1 | Claude 3 Opus | 95.4% | 04/03/2024 |
| 2 | GPT-4 | 95.3% | 14/03/2023 |
| 3 | Gemini 1.5 Pro | 92.5% | 15/02/2024 |