Jensen Huang annonce Vera Rubin au CES 2026 : une nouvelle plateforme de calcul AI marque un tournant pour l'industrie

2026-03-11 14:06:42

Après cinq ans sans lancer de cartes graphiques grand public au CES, le PDG Jensen Huang de NVIDIA s’est concentré sur un autre objectif : présenter la plateforme de calcul Vera Rubin, un système serveur AI pesant 2,5 tonnes conçu pour accélérer l’entraînement des modèles AI de nouvelle génération. Ce n’est pas seulement un produit matériel, mais une stratégie globale visant à transformer la façon dont les entreprises construisent et déploient leur infrastructure AI.

Jensen Huang est apparu lors de trois événements en 48 heures, de NVIDIA Live à une collaboration avec Siemens sur l’IA industrielle, puis au congrès Lenovo TechWorld. Son message clé : les ressources de calcul d’une valeur d’environ 10 000 milliards de dollars investies au cours de la dernière décennie doivent être modernisées en profondeur.

Vera Rubin - Architecture à 6 puces intégrées pour surpasser Blackwell

Vera Rubin brise les règles internes de NVIDIA. Au lieu de changer 1 ou 2 puces à chaque génération, l’entreprise a cette fois conçu simultanément 6 types de puces différentes, qui entrent en production de masse. La raison : les méthodes traditionnelles d’amélioration des performances ne suivent plus le rythme de croissance x10 annuelle des modèles AI, surtout avec le ralentissement de la loi de Moore.

Le choix de NVIDIA est une « conception coordonnée extrême » — innover simultanément à tous les niveaux des puces et de toute la plateforme. Le processeur Vera CPU intègre 88 cœurs Olympus personnalisés avec 176 flux de travail, supporte 1,5 To de mémoire système et une bande passante LPDDR5X de 1,2 To/s — trois fois celle de la génération Grace. Le GPU Rubin atteint une puissance de raisonnement NVFP4 de 50 PFLOPS (5 fois Blackwell) avec 336 milliards de transistors, intégrant un moteur Transformer de 3e génération capable d’ajuster dynamiquement la précision.

Pour relier tous ces composants, NVIDIA a déployé ConnectX-9 (carte réseau 800 Gb/s), BlueField-4 DPU (processeur de stockage AI en bout de chaîne), le commutateur NVLink-6 (connectant 18 nœuds, supportant jusqu’à 72 GPU Rubin fonctionnant comme un seul bloc), et le commutateur Ethernet Spectrum-6 (512 canaux, chacun à 200 Gbps).

Performances exceptionnelles : de l’entraînement à l’inférence

Le système Vera Rubin NVL72 affiche des chiffres impressionnants. En inférence NVFP4, la performance atteint 3,6 EFLOPS — 5 fois celle de Blackwell. En entraînement NVFP4, elle atteint 2,5 EFLOPS, soit 3,5 fois plus. La mémoire LPDDR5X atteint 54 To (triplement), et la mémoire HBM atteint 20,7 To avec une bande passante HBM4 de 1,6 PB/s (2,8 fois plus).

Fait remarquable, malgré cette croissance phénoménale des performances, le nombre de transistors n’augmente que de 1,7 fois (220 000 milliards), illustrant la capacité d’optimisation technologique de NVIDIA. En entraînant un modèle de 100 000 milliards de paramètres, Vera Rubin nécessite un quart du nombre de systèmes de Blackwell, avec un coût de création d’un Token réduit d’un dixième.

Plus important encore, le débit (nombre de Tokens AI produits par watt et par dollar) augmente de 10 fois par rapport à Blackwell. Pour un centre de données d’un gigawatt coûtant 50 milliards de dollars, cela signifie que la capacité à générer des revenus doublera — chaque dollar investi produira deux fois plus de valeur.

De 43 câbles à 0 câble : innovation dans l’assemblage

Vera Rubin apporte aussi une avancée dans la conception technique. Avant, chaque nœud de supercalculateur nécessitait 43 câbles, avec un montage prenant 2 heures et sujet à erreurs. Désormais, le nœud Vera Rubin utilise 0 câble, seulement 6 tubes de refroidissement liquide, et s’assemble en 5 minutes.

Derrière le serveur, près de 3,2 km de câbles en cuivre forment le réseau principal NVLink à 400 Gbps. Jensen Huang plaisante : « Peut-être que ça pèse des centaines de kilos, il faut être un PDG très en forme pour faire ça. »

Cache KV illimité : la mémoire de contexte n’est plus un goulot d’étranglement

Un problème majeur de l’IA est que, lors de conversations longues, le « KV Cache » (mémoire clé-valeur — « mémoire de tâche » de l’IA) saturent la mémoire HBM. La solution de Vera Rubin consiste à déployer un processeur BlueField-4 dans le serveur pour gérer séparément le KV Cache.

Chaque nœud possède 4 BlueField-4, chacun avec 150 To de mémoire de contexte, répartis pour chaque GPU, qui lui reçoit 16 To — alors que le GPU seul dispose d’environ 1 To de mémoire intégrée. La bande passante reste à 200 Gbps, sans ralentissement du transfert.

Spectrum-X : réseau « dédié à l’IA générative » économisant 5 milliards de dollars

Pour faire fonctionner une « note » répartie sur des dizaines de serveurs et des milliers de GPU comme une seule mémoire, le réseau doit être à la fois vaste, rapide et stable. Spectrum-X, plateforme réseau Ethernet « dédié à l’IA générative » lancée par NVIDIA, utilise la technologie silicon photon de TSMC avec un débit de 512 canaux × 200 Gbps.

Jensen Huang estime qu’un centre de données gigawatt à 50 milliards de dollars, avec Spectrum-X, voit son débit augmenter de 25 %, économisant ainsi 5 milliards de dollars. « On peut dire que ce système réseau est presque ‘gratuit’ ».

Sécurité informatique : toutes les données chiffrées en transit

Vera Rubin supporte le Confidential Computing — toutes les données sont chiffrées durant leur transfert, stockage et calcul, y compris via PCIe, NVLink, communication CPU-GPU et autres bus. Les entreprises peuvent déployer leurs modèles en toute sécurité sur des systèmes externes, sans risque de fuite.

IA physique : de la robotique à la conduite autonome, NVIDIA se concentre sur le monde réel

Jensen Huang insiste sur l’architecture « trois cœurs » pour l’IA physique : un ordinateur d’entraînement construit avec des GPU, un « petit cerveau » de raisonnement placé dans un robot ou une voiture, et un simulateur (Omniverse et Cosmos) fournissant un environnement d’entraînement virtuel.

Sur cette base, NVIDIA annonce Alpamayo — le premier modèle de conduite autonome doté de capacités de raisonnement et de réflexion. Contrairement à la conduite autonome classique, Alpamayo est un système d’entraînement end-to-end capable de résoudre le « problème de la longue traîne » de la conduite. Face à des situations de trafic complexes inédites, Alpamayo ne se contente pas d’exécuter des ordres rigides, mais raisonne comme un conducteur humain.

La Mercedes CLA équipée de la technologie Alpamayo sera officiellement lancée aux États-Unis au premier trimestre, puis en Europe et en Asie. La voiture est classée par NCAP comme la plus sûre au monde grâce à sa conception « double pile de sécurité » — lorsque le modèle AI end-to-end n’est pas confiant, le système passe immédiatement en mode sécurité traditionnel plus stable.

Sur scène, Jensen Huang invite des robots humanoïdes, des robots à quatre pattes comme Boston Dynamics, Agility… pour des démonstrations. Il souligne que le plus grand robot est en réalité une usine. Tous seront équipés de mini-ordinateurs Jetson, entraînés dans Isaac Simulator sur la plateforme Omniverse. NVIDIA intègre aussi cette technologie dans l’écosystème industriel, avec Synopsys, Cadence, Siemens.

Modèles open source : la stratégie de NVIDIA

Jensen Huang loue particulièrement la communauté open source. Il indique que la percée de DeepSeek V1 l’année dernière a directement stimulé une vague de développement dans tout le secteur. Sur ses slides, les modèles Kimi K2 et DeepSeek V3.2 sont respectivement les n°1 et n°2 en open source.

Bien que les modèles open source soient actuellement inférieurs d’environ 6 mois aux modèles de pointe, de nouveaux modèles apparaissent toutes les 6 mois. Cette cadence d’innovation pousse startups, grands groupes et chercheurs à ne pas rater le train, y compris NVIDIA.

Cette fois, ils ne se contentent pas de vendre des « pelles » ou des cartes graphiques ; NVIDIA construit le supercalculateur DGX Cloud, développe des modèles avancés comme La Proteina (protéines synthétiques) et OpenFold 3. L’écosystème de modèles open source de NVIDIA couvre la bio, l’IA physique, les agents, la robotique et la conduite autonome.

Plusieurs modèles open source de la famille Nemotron de NVIDIA sont aussi remarquables. Incluant la synthèse vocale, le multimodal, la recherche augmentée, la sécurité, ces modèles obtiennent d’excellents résultats dans de nombreux classements et sont adoptés par de nombreuses entreprises.

Avenir : stratégie du monde virtuel au monde physique

Autrefois, NVIDIA fabriquait des puces pour le monde virtuel. Désormais, Jensen Huang se concentre clairement sur l’IA physique, avec la conduite autonome et la robotique humanoïde comme représentants, pour pénétrer dans le monde physique réel, plus concurrentiel.

Face à la controverse sur la bulle de l’IA, en plus de présenter la plateforme de supercalcul Vera Rubin pour répondre à la demande de calcul, Jensen Huang investit aussi massivement dans les applications et logiciels. L’objectif est de montrer concrètement comment l’IA va transformer notre quotidien — de la conduite plus sûre à la robotique capable de raisonner.

En fin de compte, ce n’est que lorsque la bataille se joue dans le monde réel que les armes pourront continuer à se vendre.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.