Beating indique que Nvidia a lancé son grand modèle de langage phare Nemotron 3 Ultra le 4 juin, avec 550 milliards de paramètres totaux et 55 milliards de paramètres actifs. Le modèle obtient 48 sur l’indice d’intelligence d’Artificial Analysis, ce qui en fait le modèle open-source américain le plus performant, juste derrière Kimi K2.6 à 54 points.
Le modèle utilise une architecture hybride MoE Mamba-Transformer qui alterne des couches d’espace d’états Mamba-2 avec des couches d’attention Transformer, prenant en charge une fenêtre de contexte de 1 million de tokens tout en évitant une croissance quadratique de la KV cache. Par rapport aux modèles denses de taille similaire, l’architecture hybride atteint 5x plus de débit et 30% de coûts d’inférence plus faibles sur les tâches d’agents. Nemotron 3 Ultra est disponible sur Hugging Face, NVIDIA NIM et OpenRouter.