OkurAI
AccueilArticleLe scaling de l'IA peut-il continuer jusqu'en 2030?
Rapport

Le scaling de l'IA peut-il continuer jusqu'en 2030?

Nous étudions l'évolutivité des exécutions d'entraînement de l'IA. Nous identifions l'énergie électrique, la fabrication de puces, les données et la latence comme des contraintes. Nous concluons que des exécutions d'entraînement de 2e29 FLOP seront probablement réalisables d'ici 2030.

Contraintes au scaling des exécutions d'entraînement d'ici 2030

OkurAI
Compute d'entraînement (FLOP)
10³³
10³³
10³²
10³¹
10³⁰
10²⁹
10²⁸
10²⁷
10²⁶
10²⁵
Projection compute 2030
GPT-4
10,000
fois plus grand
Contraintes énergétiques
50,000
fois plus grand
Capacité de production de puces
80,000
fois plus grand
Rareté des données
1,000,000
fois plus grand
Mur de latence

Bien que significatives, les goulots d'étranglement que nous avons identifiés ne sont pas susceptibles de contraindre la croissance d'ici la fin de la décennie. Des exécutions d'entraînement 10 000 fois plus importantes seront probablement réalisables, si les entreprises décident de poursuivre cet investissement. Le coût du cluster associé atteindrait des centaines de milliards de dollars.

Figure 1: Estimations des contraintes d'échelle imposées par les goulots d'étranglement les plus importants à l'échelle. Chaque estimation est basée sur des projections historiques. La boîte ombrée foncée correspond à une plage interquartile et la région ombrée claire à un intervalle de confiance de 80%. Cliquez sur la flèche pour en savoir plus.

CC-BY
Publié
6 nov. 2025
Auteurs
OkurAI Research Team

Introduction

Ces dernières années, les capacités des modèles d'IA se sont considérablement améliorées. Nos recherches suggèrent que cette croissance des ressources de calcul représente une part importante des améliorations de performance de l'IA.1 Les améliorations cohérentes et prévisibles du scaling ont conduit les laboratoires d'IA à étendre agressivement l'échelle de l'entraînement, le compute d'entraînement augmentant à un rythme d'environ 4× par an.

Pour mettre cette croissance annuelle de 4× du compute d'entraînement de l'IA en perspective, elle dépasse même certaines des expansions technologiques les plus rapides de l'histoire récente. Elle surpasse les taux de croissance maximums de l'adoption des téléphones mobiles (2×/an, 1980-1987), l'installation de capacité d'énergie solaire (1,5×/an, 2001-2010), et le séquençage du génome humain (3,3×/an, 2008-2015).

Ici, nous examinons s'il est techniquement faisable que le rythme rapide actuel du scaling de l'entraînement de l'IA — environ 4× par an — se poursuive jusqu'en 2030. Nous étudions quatre facteurs clés qui pourraient contraindre le scaling : la disponibilité de l'énergie, la capacité de fabrication de puces, la rareté des données et le « mur de latence », une limite de vitesse fondamentale imposée par des délais inévitables dans les calculs d'entraînement de l'IA.

Nous constatons que des exécutions d'entraînement de 2e29 FLOP seront probablement réalisables d'ici la fin de cette décennie. En d'autres termes, d'ici 2030, il sera très probablement possible d'entraîner des modèles qui dépassent GPT-4 en échelle dans la même mesure que GPT-4 dépasse GPT-2 en échelle.2 Si cela est poursuivi, nous pourrions voir d'ici la fin de la décennie des avancées en IA aussi drastiques que la différence entre la génération de texte rudimentaire de GPT-2 en 2019 et les capacités sophistiquées de résolution de problèmes de GPT-4 en 2023.

Contraintes au scaling des exécutions d'entraînement d'ici 2030

Pour chaque goulot d'étranglement, nous proposons une estimation prudente de l'offre pertinente et de la plus grande exécution d'entraînement qu'ils permettraient.3 Tout au long de notre analyse, nous supposons que les exécutions d'entraînement pourraient durer entre deux et neuf mois, reflétant la tendance vers des durées plus longues. Nous supposons également que lors de la distribution de l'énergie des data centers d'IA pour l'entraînement distribué et des puces, les entreprises ne pourront mobiliser qu'environ 10% à 40% de l'offre existante.4

Contraintes énergétiques

Des plans pour des campus de data centers de 1 à 5 GW d'ici 2030 ont déjà été discutés, ce qui soutiendrait des exécutions d'entraînement allant de 1e28 à 3e29 FLOP (pour référence, GPT-4 était probablement d'environ 2e25 FLOP). L'entraînement distribué géographiquement pourrait exploiter l'infrastructure énergétique de plusieurs régions pour aller encore plus loin. Compte tenu des projections actuelles d'expansion des data centers aux États-Unis, un réseau distribué américain pourrait probablement accueillir 2 à 45 GW, ce qui, en supposant une bande passante suffisante entre data centers, soutiendrait des exécutions d'entraînement de 2e28 à 2e30 FLOP. Au-delà, un acteur prêt à payer les coûts de nouvelles centrales électriques pourrait accéder à beaucoup plus d'énergie, s'il planifie 3 à 5 ans à l'avance.

Capacité de fabrication de puces

Les puces d'IA fournissent le compute nécessaire pour entraîner de grands modèles d'IA. Actuellement, l'expansion est contrainte par la capacité de production d'emballage avancé et de mémoire à haute bande passante. Cependant, compte tenu des montées en échelle prévues par les fabricants, ainsi que des améliorations d'efficacité matérielle, il y aura probablement suffisamment de capacité pour que 100M de GPU équivalents H100 soient dédiés à l'entraînement pour alimenter une exécution d'entraînement de 9e29 FLOP, même après avoir pris en compte le fait que les GPU seront répartis entre plusieurs laboratoires d'IA et en partie dédiés au service des modèles. Cependant, cette projection comporte une incertitude significative, nos estimations allant de 20 millions à 400 millions d'équivalents H100, correspondant à 1e29 à 5e30 FLOP (5 000 à 300 000 fois plus grand que GPT-4).

Rareté des données

L'entraînement de grands modèles d'IA nécessite des ensembles de données correspondamment grands. Le web indexé contient environ 500T mots de texte unique, et devrait augmenter de 50% d'ici 2030. L'apprentissage multimodal à partir de données d'image, de vidéo et d'audio contribuera probablement modérément au scaling, triplant plausiblement les données disponibles pour l'entraînement. Après avoir pris en compte les incertitudes sur la qualité des données, la disponibilité, les époques multiples et l'efficacité du tokenizer multimodal, nous estimons l'équivalent de 400 billions à 20 quadrillions de tokens disponibles pour l'entraînement d'ici 2030, permettant des exécutions d'entraînement de 6e28 à 2e32 FLOP. Nous spéculons que la génération de données synthétiques à partir de modèles d'IA pourrait augmenter cela substantiellement.

Mur de latence

Le mur de latence représente une sorte de « limite de vitesse » découlant du temps minimum requis pour les passes avant et arrière. À mesure que les modèles évoluent, ils nécessitent plus d'opérations séquentielles pour s'entraîner. Augmenter le nombre de tokens d'entraînement traités en parallèle (la 'taille de lot') peut amortir ces latences, mais cette approche a une limite. Au-delà d'une 'taille de lot critique', d'autres augmentations de la taille de lot donnent des rendements décroissants en efficacité d'entraînement, et l'entraînement de modèles plus grands nécessite de traiter plus de lots séquentiellement. Cela fixe une limite supérieure au FLOP d'entraînement dans un délai spécifique. Nous estimons que la latence cumulative sur les configurations GPU modernes plafonnerait les exécutions d'entraînement à 3e30 à 1e32 FLOP. Dépasser cette échelle nécessiterait des topologies de réseau alternatives, des latences de communication réduites ou un scaling de taille de lot plus agressif que ce qui est actuellement faisable.

Conclusion. Bien qu'il y ait une incertitude substantielle sur les échelles précises d'entraînement qui sont techniquement faisables, notre analyse suggère que des exécutions d'entraînement d'environ 2e29 FLOP sont probablement possibles d'ici 2030. Cela représente une augmentation significative de l'échelle par rapport aux modèles actuels, similaire à la différence de taille entre GPT-2 et GPT-4. La contrainte susceptible de se lier en premier est l'énergie, suivie de la capacité à fabriquer suffisamment de puces. Aller au-delà nécessiterait une infrastructure énergétique considérablement élargie et la construction de nouvelles centrales électriques, un réseau à haute bande passante pour connecter des data centers géographiquement distribués, et une expansion significative de la capacité de production de puces.

Ce qui contraint le scaling de l'IA cette décennie

Contraintes énergétiques

Dans cette analyse, nous projetons les besoins en énergie nécessaires pour maintenir la trajectoire actuelle du scaling de l'entraînement de l'IA. Nous explorons ensuite les stratégies potentielles pour répondre à ces demandes d'énergie, y compris la génération d'énergie sur site, l'approvisionnement du réseau local et les réseaux d'entraînement distribués géographiquement. Notre attention se porte sur les exécutions d'entraînement d'IA menées aux États-Unis, examinant la faisabilité et les contraintes de chaque approche.5

Les campus de data centers entre 1 et 5 gigawatts (GW) sont probablement possibles d'ici 2030. Cette gamme s'étend du contrat d'énergie nucléaire de 960 MW d'Amazon en Pennsylvanie aux campus de 5 GW qu'OpenAI/Microsoft et Sam Altman auraient cherché à poursuivre. De tels campus soutiendraient des exécutions d'entraînement d'IA allant de 1e28 à 3e29 FLOP, compte tenu des progrès attendus dans l'efficacité énergétique des GPU ML.

Aller au-delà des data centers à campus unique impliquerait un entraînement distribué géographiquement, qui pourrait utiliser l'infrastructure énergétique de plusieurs régions. Compte tenu des projections actuelles, un réseau d'entraînement distribué pourrait accueillir une demande de 2 à 45 GW, permettant des exécutions d'entraînement de 2e28 à 2e30 FLOP. La bande passante pourrait également contraindre la plus grande exécution d'entraînement qui pourrait être effectuée dans un tel réseau. Concrètement, des bandes passantes inter-data centers de 4 à 20 Petabits par seconde (Ppbs), qui sont dans la tendance des data centers existants, soutiendraient des exécutions d'entraînement de 3e29 à 2e31 FLOP. C'est probablement assez élevé pour que la bande passante ne soit pas un obstacle majeur par rapport à la sécurisation de l'approvisionnement en énergie.6

Des exécutions d'entraînement plus importantes sont plausibles : nous nous attendons à ce que le coût de l'infrastructure nécessaire pour alimenter les GPU pendant une exécution d'entraînement soit d'environ 40% du coût des GPU eux-mêmes d'ici 2030, et une expansion rapide de l'approvisionnement en énergie via le gaz naturel ou l'énergie solaire pourrait être organisée dans les trois à cinq ans suivant une décision d'expansion — bien que cela puisse être contraint par des goulots d'étranglement au niveau de l'infrastructure.

La tendance actuelle de la demande énergétique de l'IA

L'entraînement de modèles d'IA consomme actuellement une partie petite mais en croissance rapide de l'utilisation totale de l'énergie des data centers. Ici, nous examinons les estimations existantes de la demande actuelle, extrapolons les tendances futures et comparons ces projections à la capacité énergétique globale des data centers et nationale.

L'entraînement d'IA à grande échelle repose principalement sur des accélérateurs matériels, spécifiquement les GPU. Le GPU de pointe actuel est le H100 de Nvidia,7 qui a une puissance de conception thermique (TDP) de 700W. Après avoir pris en compte le matériel de support tel que l'interconnexion de cluster et les CPU, et les frais généraux au niveau du data center tels que le refroidissement et la distribution d'énergie, sa demande de puissance de pointe passe à 1 700W par GPU.8

En utilisant la demande d'énergie par GPU, nous pouvons estimer la demande d'énergie installée pour les modèles de pointe. Le récent modèle Llama 3.1 405B, avec son exécution d'entraînement de 4e25 FLOP, utilisait un cluster de 16 000 GPU H100. Cette configuration nécessitait 27MW de capacité installée totale (16 000 GPU × 1 700W par GPU). Bien que substantiel — équivalent à la consommation annuelle moyenne de 23 000 ménages américains9 — cette demande est encore petite par rapport aux grands data centers, qui peuvent nécessiter des centaines de mégawatts.

De combien cela augmentera-t-il d'ici la fin de la décennie ? Les exécutions d'entraînement de pointe d'ici 2030 devraient être 5 000 fois plus grandes que Llama 3.1 405B, atteignant 2e29 FLOP.10 Cependant, nous ne nous attendons pas à ce que la demande d'énergie évolue autant. Cela est dû à plusieurs raisons.

Premièrement, nous nous attendons à ce que le matériel devienne plus économe en énergie au fil du temps. Le FLOP/s de pointe par W atteint par les GPU utilisés pour l'entraînement ML a augmenté d'environ 1,28×/an entre 2010 et 2024.11 Si cela continue, nous verrions des exécutions d'entraînement 4× plus efficaces d'ici la fin de la décennie.

Deuxièmement, nous anticipons une utilisation plus efficace du matériel dans le futur entraînement d'IA. Alors que Llama 3.1 405B utilisait le format FP16 (précision 16 bits), il y a une adoption croissante de l'entraînement FP8, comme on l'a vu avec Inflection-2. Un cofondateur d'Anthropic a suggéré que FP8 deviendra une pratique standard dans les laboratoires de pointe. Nous nous attendons à ce que les exécutions d'entraînement passent à 8 bits d'ici 2030, ce qui sera ~2× plus économe en énergie (par exemple, le H100 effectue environ 2e15 FLOP/s à une précision de 8 bits, contre 1e15 FLOP/s à une précision de 16 bits).12

Troisièmement, nous nous attendons à ce que les exécutions d'entraînement soient plus longues. Depuis 2010, la durée des exécutions d'entraînement a augmenté de 20% par an parmi les modèles notables, ce qui serait dans la tendance pour des exécutions d'entraînement 3× plus longues d'ici 2030. Des durées d'exécution d'entraînement plus longues étaleraient les besoins énergétiques dans le temps. Pour le contexte, Llama 3.1 405B a été entraîné sur 72 jours, tandis que d'autres modèles contemporains tels que GPT-4 auraient été entraînés sur ~100 jours. Cependant, nous pensons qu'il est peu probable que les exécutions d'entraînement dépassent un an, car les laboratoires souhaiteront adopter de meilleurs algorithmes et techniques d'entraînement à l'échelle de temps à laquelle ceux-ci fournissent des gains de performance substantiels.

Compte tenu de tout ce qui précède, nous nous attendons à ce que les exécutions d'entraînement en 2030 soient 4× (efficacité matérielle) * 2× (FP8) * 3× (durée accrue) = 24× plus économes en énergie que l'exécution d'entraînement de Llama 3.1 405B. Par conséquent, les exécutions d'entraînement de 2e29 FLOP dans la tendance en 2030 nécessiteront 5 000× (échelle accrue) / 24× ≈ 200× plus d'énergie que ce qui a été utilisé pour l'entraînement de Llama 3.1 405B, pour une demande d'énergie de 6 GW.

Ces chiffres sont encore relativement petits par rapport à la capacité énergétique totale installée des États-Unis, qui est d'environ 1 200 GW, ou les 477 GW d'énergie que les États-Unis ont produits en moyenne en 2023.13Cependant, ils sont substantiels par rapport à la consommation d'énergie de tous les data centers américains aujourd'hui, qui est d'environ 20 GW,14 dont la plupart n'est actuellement pas liée à l'IA. De plus, les installations qui consomment plusieurs gigawatts d'énergie sont massivement sans précédent — les installations énergivores aujourd'hui telles que les fonderies d'aluminium exigent jusqu'à environ l'ordre d'un gigawatt d'énergie, mais pas beaucoup plus.15,16 Dans les sections suivantes, nous examinons si de telles installations énergivores seront possibles.

Contraintes énergétiques pour les entraînements géographiquement localisés

Pour l'entraînement géographiquement localisé, qu'il soit effectué par un seul data center ou plusieurs data centers dans un seul campus, il existe deux options pour l'approvisionnement en énergie : la génération sur site, ou le prélèvement de (possiblement plusieurs) centrales électriques via le réseau électrique local.

Les entreprises poursuivent déjà la génération sur site aujourd'hui. Meta a acheté les droits sur la production d'énergie d'une ferme solaire de 350MW dans le Missouri et d'une ferme solaire de 300MW en Arizona.17 Amazon possède un campus de data center en Pennsylvanie avec un contrat pour jusqu'à 960 mégawatts de la centrale nucléaire adjacente de 2,5 GW. La motivation principale derrière ces accords est d'économiser sur les coûts de connexion au réseau et de garantir un approvisionnement énergétique fiable. Dans les années à venir, de tels data centers pourraient permettre des exécutions d'entraînement sans précédent — 960 MW représenteraient plus de 35× plus d'énergie que les 27 MW requis pour les exécutions d'entraînement de pointe d'aujourd'hui.

Pourrait-on acquérir encore plus d'énergie grâce à la génération sur site ? Actuellement, il y a au moins 27 centrales électriques avec une capacité supérieure à 2,5 GW aux États-Unis,18 allant jusqu'à la centrale hydroélectrique Grand Coulee de 6,8 GW à Washington. Cependant, une partie importante de la capacité énergétique des centrales existantes est probablement déjà engagée par des contrats à long terme.19 Cette disponibilité limitée de capacité de réserve suggère que les centrales électriques américaines existantes pourraient rencontrer des difficultés à accueillir des accords de génération sur site à grande échelle. La rareté de la capacité énergétique de réserve engendre également des litiges. Par exemple, l'offre d'Amazon pour 960 MW d'énergie nucléaire sur site est contestée par deux services publics cherchant à plafonner Amazon à son achat actuel de 300 MW. Ils soutiennent que cet arrangement évite les coûts partagés du réseau ; de tels litiges peuvent également inhiber d'autres accords d'énergie sur site.

Plus de centrales à grande échelle pourraient être construites dans les années à venir, mais peu ont été construites récemment, et les centrales électriques les plus récentes >3 GW ont pris environ cinq ans à construire.20Il semble peu probable que des centrales électriques américaines déjà planifiées puissent accueillir un data center sur site dans la gamme >3 GW d'ici 2030.21 Au lieu de cela, passer à des échelles plus grandes nécessitera probablement de tirer l'électricité du réseau.

Comme approximation, nous pouvons examiner les tendances de consommation des data centers dans des zones géographiquement localisées. Par exemple, le nord de la Virginie est le plus grand hub de data centers aux États-Unis, abritant près de 300 data centers qui sont connectés à 5 GW d'énergie en capacité de pointe.22 Le plus grand fournisseur d'électricité du nord de la Virginie, Dominion, s'attend à ce que leur charge de data center augmente de 4× au cours des quinze prochaines années, pour un taux de croissance annuel implicite de 10%. Si Dominion et d'autres fournisseurs régionaux s'en tiennent à des plans d'expansion similaires, d'ici 2030, nous pourrions nous attendre à ce que la capacité énergétique des data centers en Virginie du Nord passe à environ 10 GW.23

Certaines entreprises étudient des options pour des data centers à l'échelle du gigawatt, une échelle qui semble faisable d'ici 2030. Cette évaluation est soutenue par les dirigeants de l'industrie et corroborée par de récents rapports médiatiques. Le PDG de NextEra, la plus grande entreprise de services publics aux États-Unis, a récemment déclaré que bien que trouver un site pour un data center d'IA de 5 gigawatts serait difficile, des emplacements capables de supporter des installations de 1 gigawatt existent bel et bien dans le pays. Cela est également cohérent avec un rapport médiatique indiquant que Microsoft et OpenAI prévoient provisoirement un campus de data center d'IA pour 2028 surnommé Stargate qui nécessitera « plusieurs gigawatts d'énergie », avec une expansion jusqu'à 5 GW d'ici 2030.24

En résumé, les trajectoires actuelles suggèrent que des installations d'entraînement d'IA capables d'accueillir 2 à 5 GW de demande d'énergie sont faisables d'ici 2030. Cette évaluation est basée sur trois facteurs clés : la croissance projetée de la capacité énergétique des data centers, illustrée par l'augmentation attendue de 5 GW à 10 GW en Virginie du Nord ; les plans ambitieux de l'industrie pour des data centers à l'échelle du gigawatt, tels que le campus Stargate rumeur ; et les évaluations des entreprises de services publics indiquant que des installations de 1 à 5 gigawatts sont viables dans certains emplacements américains. Pour le contexte, une alimentation électrique de 5 GW telle que le campus Stargate rumeur permettrait des exécutions d'entraînement de 2e29 FLOP d'ici 2030, en tenant compte des progrès attendus en matière d'efficacité énergétique et d'une augmentation de la durée d'entraînement à plus de 300 jours.25 Les réseaux d'entraînement alimentés par des centrales électriques colocalisées ou des réseaux électriques locaux sont peu susceptibles de dépasser 10 GW — car cela se rapprocherait de la demande d'énergie totale projetée dans tous les data centers en Virginie du Nord.

Contraintes énergétiques pour l'entraînement distribué géographiquement

Distribuer l'entraînement d'IA au-delà d'un seul data center peut aider à contourner les contraintes énergétiques locales. L'entraînement distribué entre data centers implique de répartir les charges de travail sur plusieurs data centers, qui peuvent ou non être à proximité. Cette méthode a probablement été utilisée pour de grands modèles comme Gemini Ultra, permettant l'accès à plus de ressources matérielles.26 L'entraînement distribué géographiquement étend ce concept sur des zones plus larges, exploitant potentiellement des réseaux électriques séparés. Les grandes entreprises technologiques sont bien positionnées pour cette approche, avec des data centers déjà répartis dans plusieurs régions. Par exemple, Google exploite des data centers dans 15 États américains différents.27 Cette approche pourrait permettre des opérations d'entraînement à plus grande échelle en accédant à un pool plus large de ressources énergétiques.

Bientôt Disponible

Pass IA : Votre accès privilégié à l'intelligence artificielle

Rejoignez la liste d'attente pour être parmi les premiers à accéder à Pass IA, notre plateforme exclusive qui démocratise l'accès aux modèles d'IA de pointe pour la recherche et l'innovation.

Accès Prioritaire

Soyez parmi les premiers à tester nos outils IA

Modèles de Pointe

Accédez aux derniers modèles d'IA pour vos recherches

Communauté Exclusive

Rejoignez une communauté de chercheurs et innovateurs