D’après des informations, des chercheurs de NVIDIA et du MIT ont publié Lightning OPD (Offline On-Policy Distillation), un nouveau cadre post-entraînement pour les grands modèles de langage qui élimine la nécessité de garder un modèle enseignant en fonctionnement pendant l’entraînement. En précalculant hors ligne les log-probabilités du modèle enseignant, le cadre améliore l’efficacité de l’entraînement de 4x tout en libérant toutes les ressources GPU pour l’entraînement du modèle étudiant.
Lors de tests sur 8 GPU NVIDIA H100, Lightning OPD a réussi à distiller Qwen3-30B-A3B-Base (un modèle MoE de 30 milliards de paramètres) et a atteint 71,0 sur le benchmark AIME 2024, tandis que l’OPD standard a manqué de mémoire sur le même matériel. Pour le modèle Qwen3-8B plus petit, le cadre n’a nécessité que 30 heures de GPU pour atteindre 69,9 points.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
TT Chain intègre le système de sécurité AegisAI pour la protection des RWA le 11 mai
D’après l’annonce de TT Chain du 11 mai, le réseau blockchain de couche 2 a intégré l’infrastructure de sécurité pilotée par l’IA d’AegisAI dans son écosystème d’actifs du monde réel. La collaboration améliore la protection des transactions d’actifs tokenisés et des opérations inter-chaînes grâce à des capacités avancées de détection des menaces et d’audit des smart contracts. Les agents autonomes d’IA d’AegisAI détectent les attaques de phishing, empêchent les tentatives d’accès non autorisé et
GateNewsIl y a 4m
La startup d’IA Wispr discute d’un tour de financement à une valorisation de $2B le 12 mai
Selon PANews, la startup d’IA Wispr est en négociations de levée de fonds le 12 mai, avec une valorisation de 2 milliards de dollars.
GateNewsIl y a 10m
Sam Altman doit témoigner aujourd’hui dans le procès OpenAI de Musk $38M
Selon BlockBeats, Sam Altman est programmé pour témoigner aujourd'hui (12 mai) devant un tribunal fédéral à Oakland, en Californie, au sujet du procès d'Elon Musk contre OpenAI. Altman prendra la barre après que Bret Taylor, président du conseil d'administration d'OpenAI, aura terminé son témoignage. Musk a déposé ce recours en 2024, affirmant qu'OpenAI, Altman et le président Greg Brockman ont enfreint la mission initiale à but non lucratif et d'intérêt public de l'entreprise. Musk affirme que
GateNewsIl y a 37m
Depthfirst découvre des failles critiques d’Internet à un dixième du coût de la mythologie d’Anthropic
D'après BlockBeats, le 12 mai, la startup de cybersécurité IA Depthfirst a annoncé que son modèle de découverte de vulnérabilités d'IA développé en interne avait identifié plusieurs failles de sécurité critiques, manquées par le Mythos d'Anthropic, en affirmant que le coût total ne représentait qu'un dixième de celui de ce dernier. Le PDG de Depthfirst, Qasim Mithani, a déclaré que l'entreprise peut « accomplir des travaux pour 1 000 $ que Mythos exigerait 10 000 $ pour réaliser » en optimisant
GateNewsIl y a 57m
Les introductions en bourse de Cerebras cette semaine à une valorisation de 55 milliards de dollars, offrant à OpenAI une participation potentielle de 11%
D’après Odaily, le fabricant de puces d’intelligence artificielle Cerebras va entrer en bourse cette semaine avec une valorisation de 55 milliards de dollars lors d’une introduction en bourse (IPO). L’engagement d’investissement de 200 milliards de dollars d’OpenAI pourrait lui donner une participation de 11% dans l’entreprise.
GateNewsIl y a 1h
Cerebras entre en bourse cette semaine à une valorisation de 5,5 milliards de dollars ; la participation de 11 % d’OpenAI pourrait rapporter plus de 5 milliards de dollars
D’après The Information, le fabricant de puces d’IA Cerebras va entrer en Bourse cette semaine avec une valorisation de 5,5 milliards de dollars lors de son introduction en Bourse (IPO). L’engagement d’investissement de 20 milliards de dollars d’OpenAI pourrait lui conférer une participation de 11% dans la société, ce qui pourrait générer plus de 5 milliards de dollars de produit.
GateNewsIl y a 1h