Le 1er juin 2026, NVIDIA a annoncé lors de la conférence GTC Taipei que la plateforme Vera Rubin était entrée en phase de production industrielle à grande échelle. Ce même jour, le fournisseur de cloud IA CoreWeave est devenu le premier du secteur à finaliser le déploiement cloud et la validation de Vera Rubin NVL72, avec une clôture de son action à 124,82 $ — soit une hausse de 13,96 % — et un volume d’échanges environ 90 % supérieur à la moyenne sur trois mois. La publication simultanée de ces deux annonces n’est pas un hasard : elle marque une nouvelle avancée générationnelle dans l’offre de puissance de calcul pour l’IA, passant des expérimentations en laboratoire à des environnements de production.
Réduire Vera Rubin NVL72 à une simple évolution de puce serait nettement sous-estimer sa portée dans l’industrie. Le véritable enjeu que ce changement générationnel adresse est le suivant : alors que les modèles dépassent le seuil du trillion de paramètres, que les charges d’inférence dépassent celles de l’entraînement, et que l’IA agentique exige des réponses en millisecondes, comment organiser, déployer, consommer et tarifer la puissance de calcul ? Blackwell a introduit le concept de calcul à l’échelle du rack ; Vera Rubin pousse cette logique à l’extrême — avec six puces itérées simultanément, un rack compact entièrement refroidi par liquide, et une réduction d’un ordre de grandeur des coûts d’inférence — redéfinissant les limites d’efficacité de l’infrastructure IA.
De l’itération de puce à l’intégration système : comment Vera Rubin redéfinit les dimensions de la concurrence
La logique traditionnelle des évolutions générationnelles de GPU suit une chaîne linéaire : amélioration du procédé → plus de transistors → puissance de calcul accrue → consommation réduite. Vera Rubin NVL72 rompt avec ce schéma. Elle ne se concentre plus sur un GPU unique comme argument principal, mais définit désormais le rack entier comme l’unité minimale de livraison pour le supercalcul IA.
Chaque rack Vera Rubin NVL72 intègre 72 GPU Rubin et 36 CPU Vera, offrant une bande passante de montée en charge de 260 To/s à l’échelle du rack grâce à NVLink de sixième génération. NVIDIA affirme que cette bande passante dépasse le trafic Internet mondial total. Le système adopte une solution de refroidissement 100 % liquide, réduisant le temps d’installation de deux heures (architecture traditionnelle) à cinq minutes seulement. Derrière ces spécifications, le véritable changement est que le critère central de la compétition sur la puissance de calcul migre du « TFLOPS par carte » vers « l’efficacité système à l’échelle du rack ».
Blackwell NVL72 avait déjà démontré le potentiel du calcul à l’échelle du rack — 1,44 EFLOPS de puissance d’inférence, 130 To/s de bande passante interne, refroidissement partiel par liquide. Vera Rubin NVL72 va plus loin : la puissance d’inférence grimpe à 3,6 EFLOPS (x2,5), la puissance d’entraînement passe de 10 PFLOPS à 35 PFLOPS (x3,5), la mémoire GPU évolue de HBM3e à HBM4, doublant la capacité de 141 Go à 288 Go, et la bande passante augmente d’environ 8 To/s à près de 22 To/s. Ces chiffres ne représentent pas une simple « multiplication des performances », mais une refonte systémique de l’efficacité. À noter, la hausse de la puissance d’inférence (x5) dépasse largement celle de l’entraînement (x3,5). Ce choix différencié traduit un constat clair : l’inférence supplante l’entraînement comme principal champ de consommation de puissance IA.
Synergie à six puces et refroidissement liquide intégral : logique de chaîne d’approvisionnement et de coûts derrière les choix techniques
L’innovation au niveau des puces de Vera Rubin NVL72 ne se limite pas à un GPU unique : elle implique six puces conçues spécifiquement — CPU Vera, GPU Rubin, commutateur NVLink 6, SuperNIC ConnectX-9, DPU BlueField-4, et commutateur Ethernet Spectrum-6. Ces puces ont été développées et validées en parallèle, et non assemblées après des conceptions indépendantes. Cette stratégie d’« itération simultanée du stack complet » vise à éliminer les écarts de performance historiques entre calcul, stockage et réseau au niveau technique, et à ériger des barrières d’entrée plus profondes qu’à l’ère Blackwell sur le plan commercial — les concurrents potentiels doivent non seulement maîtriser la conception GPU, mais aussi progresser en CPU, interconnexions, NIC, DPU et puces de commutation.
La solution de refroidissement 100 % liquide est un autre choix technique majeur. Chaque rack Vera Rubin NVL72 consomme environ 440 kW, affiche un PUE d’environ 1,1 et accepte une température d’eau d’entrée jusqu’à 45°C. À titre de comparaison, Blackwell NVL72 propose un refroidissement liquide partiel avec un PUE autour de 1,25. Si la différence semble minime à l’échelle d’un rack, elle devient significative sur des milliers de racks : la baisse du PUE de 1,25 à 1,1 génère des économies substantielles sur l’électricité et l’infrastructure de refroidissement. Cela explique pourquoi CoreWeave a développé Valvey (module de vanne programmable pour le refroidissement liquide au niveau du rack) et Racky (contrôleur unifié du rack) spécifiquement pour Vera Rubin — le refroidissement liquide passe du statut de « solution optionnelle » à celui d’« infrastructure essentielle ».
Une contrainte majeure de la chaîne d’approvisionnement est que le refroidissement liquide intégral et la synergie à six puces introduisent plusieurs goulets d’étranglement industriels. La mémoire HBM4 est actuellement principalement fournie par Samsung Electronics et SK Hynix. La montée en cadence de la production des composants de refroidissement et la livraison synchronisée des éléments du système pourraient toutes limiter la vitesse de pénétration de Vera Rubin sur le marché.
Les coûts d’inférence divisés par dix : une nouvelle économie pour les applications IA
Parmi toutes les spécifications techniques de Vera Rubin NVL72, les plus significatives sur le plan économique sont les suivantes : par rapport à Blackwell, le coût d’inférence par million de tokens chute à environ un dixième, la performance d’inférence par watt grimpe jusqu’à x10, et le nombre de GPU nécessaires pour une charge d’inférence équivalente peut diminuer jusqu’à trois quarts.
Ces résultats proviennent de trois avancées techniques : procédé 3 nm augmentant la densité de transistors (33,6 milliards, soit environ 60 % de plus que Blackwell), HBM4 doublant la bande passante mémoire, et NVLink de sixième génération réduisant encore les goulets d’étranglement de communication GPU. Plus important encore, la baisse des coûts d’inférence rend économiquement viables des scénarios d’application auparavant inaccessibles.
Prenons l’exemple des agents autonomes en temps réel : lorsque l’IA devient un service fonctionnant en continu et prenant des décisions proactives, plutôt qu’une inférence ponctuelle déclenchée par l’utilisateur, le coût par million de tokens détermine directement la viabilité du modèle économique. Même logique pour l’inférence sur des contextes million-token — analyse de livres entiers, de longues transcriptions de réunions ou compréhension de bases de code complètes, où une seule requête consomme d’importants volumes de tokens. Une division par dix des coûts fait passer ces produits du stade « démonstration » à celui de « passage à l’échelle ».
Selon TrendForce, en 2026, les cinq principaux CSP nord-américains devraient augmenter la puissance de calcul dédiée à l’inférence IA de 122 %, contre seulement 56 % pour l’entraînement. L’inférence progresse donc plus de deux fois plus vite que l’entraînement. Ce changement structurel signifie que l’optimisation de la performance axée sur l’inférence de Vera Rubin présente une pertinence commerciale forte, et ne relève pas d’un simple effet de démonstration technique.
Premiers signaux du déploiement cloud : lancement de CoreWeave et effets sur la chaîne industrielle
CoreWeave a annoncé la réussite du déploiement cloud de Vera Rubin le jour même du début de la production de masse — un timing qui mérite d’être analysé. Il traduit plusieurs faits concomitants : livraison anticipée de la chaîne matérielle, préparation du stack logiciel et des opérations, et alignement stratégique particulièrement étroit entre CoreWeave et NVIDIA.
Un point critique de la narration est que la revendication de CoreWeave d’être « premier » est quelque peu contestée. Microsoft a déclaré en mars 2026 être le premier fournisseur cloud hyperscale à valider Vera Rubin NVL72 dans le cloud (à des fins de validation). La différence entre « premier à déployer » et « premier à valider » illustre la complexité des revendications de « premier entrant » dans la compétition infrastructure IA. Les critères de telles annonces restent ouverts à interprétation selon les acteurs.
Sur le plan industriel, le déploiement de Vera Rubin par CoreWeave s’appuie sur les serveurs PowerEdge XE9812 refroidis par liquide de Dell Technologies, avec une architecture réseau prenant en charge à la fois NVIDIA Quantum-X800 InfiniBand et Spectrum-X Ethernet. Une architecture RoCE multi-piste et multi-plan offre 1,6 Tb/s de bande passante backend par GPU. Cela signifie que l’écosystème Vera Rubin est prêt bien au-delà d’un seul fournisseur, formant une collaboration multi-niveaux, des OEM serveurs aux équipements réseau.
CoreWeave sera officiellement intégré à l’indice Russell 3000 le 27 juin 2026. Au 31 mars 2026, NVIDIA détient environ 11 % du capital de CoreWeave. Selon FactSet, la prévision médiane de chiffre d’affaires pour CoreWeave en 2026, issue de 31 analystes, est de 12,589 milliards de dollars, avec une prévision médiane à long terme pour 2029 de 50,458 milliards de dollars. Cette perspective de croissance est fortement corrélée à l’offre de puissance de calcul Vera Rubin — l’avancement du déploiement de la nouvelle architecture aura un impact direct sur la capacité d’expansion et la réalisation de revenus de CoreWeave.
Impacts multi-scénarios sur l’industrie : de la baisse des coûts d’inférence à la réorganisation de la puissance de calcul
Placer le lancement de Vera Rubin NVL72 dans un contexte industriel plus large révèle trois trajectoires évolutives interconnectées.
Premièrement, l’évolution de l’offre et de la demande de puissance de calcul. La courbe de croissance passe d’un modèle « entraînement-dominant » à « inférence-dominant ». Les besoins de l’IA agentique en fonctionnement continu, faible latence et haut débit élargissent la demande de calcul, passant de quelques clusters d’entraînement ultra-massifs à des réseaux d’infrastructure d’inférence distribuée. Le plan de centre de données Vera Rubin de Supermicro (de 5 MW à 1 GW) répond à ce changement — l’offre de puissance de calcul n’a plus besoin d’être monopolisée par les méga data centers ; des usines IA de taille intermédiaire peuvent déployer économiquement une puissance de calcul de premier plan.
Deuxièmement, la restructuration de la concurrence industrielle. L’itération simultanée des six puces signifie que NVIDIA construit systématiquement des barrières d’entrée. Pour les concurrents potentiels, maîtriser la conception GPU n’est que la première étape ; il leur faut aussi résoudre l’optimisation coordonnée des CPU, interconnexions, DPU, NIC et puces de commutation. La complexité et la profondeur de ce stack technique croissent exponentiellement, augmentant la pression sur les acteurs existants.
Troisièmement, l’évolution des conditions commerciales pour les applications IA. La baisse des coûts d’inférence pourrait rendre viables des scénarios auparavant inaccessibles, notamment ceux nécessitant des charges IA continues sur le long terme. Cependant, cette transmission n’est pas automatique — l’adaptation du stack logiciel, la compatibilité des architectures de modèles avec le nouveau matériel, et les stratégies de tarification cloud détermineront si les bénéfices de la baisse des coûts d’inférence sont pleinement absorbés au niveau applicatif.
En analyse de scénarios, le scénario de base (probabilité la plus élevée) est une baisse linéaire des coûts d’inférence selon une trajectoire prévisible, entraînant une optimisation continue des structures de coûts des applications IA, avec une amélioration systémique entre 2027 et 2028. Le scénario agressif (probabilité modérée) est que le marché anticipe la tendance baissière, faisant évoluer les critères d’achat de puissance de calcul du « pic de performance » vers le « throughput tokens par watt » et le « coût par million de tokens », avec le rack remplaçant le serveur comme unité minimale de calcul et les fournisseurs cloud adaptant le système en premier bénéficiant d’un avantage de pionnier. Le scénario de risque (probabilité plus faible mais non négligeable) est celui de difficultés dans la production de masse ou la stabilité de la chaîne d’approvisionnement — approvisionnement HBM4, capacité des composants de refroidissement, livraison synchronisée des six puces ; tout retard pourrait ralentir la pénétration du marché.
Conclusion
Le lancement de Vera Rubin NVL72 fait évoluer la logique de la compétition sur la puissance IA, passant de « l’itération de puce » à « l’intégration système ». Synergie à six puces, conception rack-as-computer et baisse d’un ordre de grandeur des coûts d’inférence alimentent ensemble cette nouvelle vague de révolution du calcul. Blackwell a ouvert la voie au calcul à l’échelle du rack ; Vera Rubin vise à pousser cette approche à son extrême — non seulement des GPU plus rapides, mais une redéfinition de l’organisation, du déploiement et de la tarification de la puissance IA.
Pour les acteurs du marché, les variables clés ne sont plus « à quelle vitesse sortira le prochain GPU », mais « à quelle vitesse les bénéfices de la baisse des coûts d’inférence atteindront le niveau applicatif », et « dans quelle mesure la réorganisation de la puissance de calcul transformera la conception des data centers et la concurrence entre fournisseurs cloud ». La validation collaborative à l’échelle industrielle de Vera Rubin NVL72 apporte des premiers éléments de réponse, mais l’efficacité réelle après déploiement massif, la stabilité de la chaîne d’approvisionnement et l’absorption de la demande aval nécessitent encore une observation continue.
FAQ
Quelles sont les principales améliorations de Vera Rubin NVL72 par rapport à Blackwell ?
Vera Rubin NVL72 offre une puissance d’inférence à l’échelle du rack de 3,6 EFLOPS — soit 2,5 fois celle de Blackwell NVL72 (1,44 EFLOPS) — et réduit le coût d’inférence par million de tokens à environ un dixième.
Pourquoi la hausse de puissance d’entraînement de Vera Rubin (x3,5) est-elle inférieure à celle de l’inférence (x5) ?
Cette différence reflète la vision stratégique de NVIDIA sur les tendances du secteur : les charges d’inférence progressent désormais plus vite que celles d’entraînement, et la nouvelle architecture est optimisée plus fortement pour les scénarios d’inférence.
Que signifie être le premier fournisseur cloud à déployer Vera Rubin pour CoreWeave ?
La collaboration technique de CoreWeave avec NVIDIA va bien au-delà des relations classiques d’offre et de demande ; ce premier déploiement valide la préparation du stack logiciel et des opérations de Vera Rubin.
Que signifie une solution de refroidissement liquide intégral pour les data centers ?
Le refroidissement liquide complet de Vera Rubin NVL72 abaisse le PUE d’environ 1,25 (Blackwell) à près de 1,1, générant des économies importantes d’électricité et d’infrastructure de refroidissement à l’échelle de milliers de racks.
Quels risques de chaîne d’approvisionnement Vera Rubin rencontre-t-elle lors de la production de masse ?
La mémoire HBM4 est principalement fournie par Samsung Electronics et SK Hynix ; la montée en cadence des composants de refroidissement et la livraison synchronisée des six puces pourraient toutes limiter la pénétration du marché.
Quels nouveaux scénarios applicatifs permettra une division par dix des coûts d’inférence ?
Fonctionnement continu d’agents en temps réel, inférence longue sur des contextes million-token, et déploiements d’inférence distribuée à grande échelle — auparavant non viables en raison du coût élevé d’accumulation de tokens — deviendront économiquement accessibles.
Quel impact aura l’intégration de CoreWeave à l’indice Russell 3000 ?
L’intégration à l’indice Russell 3000 favorisera l’allocation passive par ETF, augmentant l’accessibilité et la liquidité de CoreWeave auprès des investisseurs institutionnels.
L’architecture Vera Rubin a-t-elle modifié la logique d’investissement pour l’infrastructure IA ?
La logique d’investissement évolue du « concours de performance par carte » vers la « compétition sur l’efficacité système », avec la densité de calcul à l’échelle du rack, le throughput tokens par watt et le coût par million de tokens comme nouveaux critères centraux.




