NVIDIA y el MIT publican el framework Lightning OPD, mejorando 4x la eficiencia de la destilación de modelos mientras eliminan los problemas de memoria de la GPU

Según los informes, investigadores de NVIDIA y del MIT lanzaron Lightning OPD (Offline On-Policy Distillation), un nuevo marco de post-entrenamiento para modelos de lenguaje grandes que elimina la necesidad de mantener un modelo docente en funcionamiento durante el entrenamiento. Al precomputar las log-probabilidades del modelo docente sin conexión, el marco mejora la eficiencia del entrenamiento en 4x y libera todos los recursos de GPU para el entrenamiento del modelo estudiante.

En pruebas con 8 GPU NVIDIA H100, Lightning OPD destiló con éxito Qwen3-30B-A3B-Base (un modelo MoE con 30 mil millones de parámetros) y logró 71,0 en el benchmark AIME 2024, mientras que el OPD estándar se quedó sin memoria en el mismo hardware. Para el modelo Qwen3-8B más pequeño, el marco requirió solo 30 horas de GPU para alcanzar 69,9 puntos.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

TT Chain integra el sistema de seguridad AegisAI para la protección de RWA el 11 de mayo

Según el anuncio de TT Chain del 11 de mayo, la red blockchain de capa 2 integró la infraestructura de seguridad impulsada por IA de AegisAI en su ecosistema de activos del mundo real tokenizados. La colaboración mejora la protección de las transacciones de activos tokenizados y de las operaciones entre cadenas mediante capacidades avanzadas de detección de amenazas y auditoría de contratos inteligentes. Los agentes autónomos de IA de AegisAI detectan ataques de phishing, evitan intentos de acce

GateNewsHace5m

La startup de IA Wispr en conversaciones de financiación con una valoración de $2B el 12 de mayo

Según PANews, la startup de IA Wispr está en negociaciones de recaudación el 12 de mayo, con una valoración de 2 mil millones de dólares.

GateNewsHace11m

Sam Altman testificará hoy en la demanda de $38M OpenAI de Musk

De acuerdo con BlockBeats, Sam Altman está programado para testificar hoy (12 de mayo) en un tribunal federal en Oakland, California, en relación con la demanda de Elon Musk contra OpenAI. Altman subirá al estrado después de que el presidente de la junta de OpenAI, Bret Taylor, termine su testimonio. Musk presentó la demanda en 2024 alegando que OpenAI, Altman y el presidente Greg Brockman violaron la misión original sin fines de lucro y de beneficio público de la empresa. Musk sostiene que su d

GateNewsHace37m

Depthfirst detecta fallas críticas de Internet a un décimo del costo del «Mythos» de Anthropic

Según BlockBeats, el 12 de mayo, la startup de ciberseguridad con IA Depthfirst anunció que su modelo de descubrimiento de vulnerabilidades de IA desarrollado internamente encontró múltiples fallas de seguridad críticas que fueron omitidas por el Mythos de Anthropic, afirmando que el coste total era solo una décima parte del de este último. El CEO de Depthfirst, Qasim Mithani, dijo que la empresa puede «completar trabajos por 1.000 USD que Mythos necesitaría 10.000 USD para lograr» optimizando l

GateNewsHace57m

Las IPO de Cerebras esta semana a una valoración de 55 mil millones de dólares, lo que le daría a OpenAI una participación potencial del 11%

Según Odaily, el fabricante de chips de inteligencia artificial Cerebras saldrá a bolsa esta semana con una valoración de IPO de 55 mil millones de dólares. El compromiso de inversión de 200 mil millones de dólares de OpenAI podría darle una participación del 11% en la empresa.

GateNewshace1h

Cerebras sale a bolsa esta semana con una valoración de 5,5B; la participación del 11% de OpenAI podría generar más de 5B

Según The Information, el fabricante de chips de IA Cerebras saldrá a bolsa esta semana con una valoración de IPO de 5,5 mil millones de dólares. El compromiso de inversión de OpenAI de 20 mil millones de dólares podría darle una participación del 11% en la empresa, potencialmente generando más de 5 mil millones de dólares en ingresos.

GateNewshace1h
Comentar
0/400
Sin comentarios