CEO de MiniMax: la inteligencia del modelo Edge coincide con GPT-4, pero la tecnología de agentes necesita tiempo

MINIMAX7,67%

El director ejecutivo de MiniMax Intelligence, Li Dahai, afirmó en la Conferencia 2026 de Beijing Zhiyuan que la tecnología de agentes requiere un enfoque medido a pesar de los avances acelerados. Hablando con Pengpai News y otros medios, Li explicó que las expectativas públicas sobre agentes sin errores superan lo que la curva actual de desarrollo técnico puede ofrecer, ya que la tecnología aún necesita tiempo para madurar. Identificó 2025 como el primer año de los agentes, anticipando un crecimiento explosivo que impactará profundamente en la sociedad humana, aunque recalcó la necesidad de una evaluación serena de las capacidades técnicas actuales en el espacio de los agentes de IA.

Li Dahai describe limitaciones de la tecnología de agentes y evolución acelerada

Li Dahai reconoció que la integración de modelos grandes y la tecnología de agentes está evolucionando rápidamente, con algunos escenarios que ya están aterrizando en aplicaciones prácticas. Al hablar sobre las limitaciones de los agentes, Li dijo sin rodeos: "Problemas en todas partes". Explicó que "la evolución de la tecnología de modelos y Agentes es muy rápida", señalando que "quizás hoy algún trabajo tiene una tasa de error del 10% y, el próximo mes, la tasa de error cae al 1%: la evolución rápida se ha convertido en una tendencia central".

El CEO de MiniMax refuta el malentendido sobre la destilación de modelos pequeños

Li Dahai desafió directamente la creencia generalizada en la industria de que "hacer buenos modelos pequeños debe provenir de la destilación de modelos fundacionales de ultra gran escala", calificándolo como un "malentendido cognitivo". Explicó: "Detrás de la destilación hay una premisa muy específica: el propio objeto de la destilación debe ser un buen modelo. La destilación es esencialmente: para las empresas que no tienen la capacidad de desarrollar por sí mismas modelos fundacionales, pero que quieren aterrizar aplicaciones, adoptan modelos fundacionales existentes de pequeño tamaño y obtienen capacidades específicas para escenarios mediante ajuste fino. En este proceso, pueden usar otros modelos grandes para sintetizar datos y permitir que los modelos pequeños adquieran capacidades correspondientes". Li afirmó que este es el paradigma para todo el entrenamiento de modelos grandes, no limitado únicamente a modelos pequeños.

MiniMax transfiere cargas de entrenamiento a chips nacionales

Li Dahai reveló: "Desde este año, dado que la industria en su conjunto ha cambiado la inferencia a chips nacionales, nosotros también estamos transfiriendo gradualmente el entrenamiento a chips nacionales y clústeres nacionales". Identificó dos rutas paralelas para mejorar el ecosistema de computación nacional: la primera es el perfeccionamiento de abajo hacia arriba, donde las empresas de modelos grandes van mejorando gradualmente el ecosistema a través de sus propias prácticas de entrenamiento, "como mojar un bloque de piedra bit a bit, lo cual toma tiempo". La segunda ruta es la planificación de arriba hacia abajo, ejemplificada por la profunda cooperación de MiniMax con el Instituto de Investigación Zhiyuan en el ecosistema de software FlagOS, donde las empresas de modelos grandes y las empresas de chips establecen una cooperación profunda y avanzan bajo planificación. Li Yuxuan, responsable de AIInfra en MiniMax Intelligence, señaló que la inferencia requiere realmente una precisión más alta que el entrenamiento, y la tecnología de escalado de modelos propuesta por MiniMax se convirtió en un avance clave: lograr el efecto de predecir modelos grandes con modelos muy pequeños, proporcionando una evaluación en profundidad en chips nacionales, alineando los detalles experimentales con fabricantes en el extranjero y confirmando que la precisión de entrenamiento es utilizable. MiniMax divulgó que ha logrado un entrenamiento con cuantización consciente de ancho de bit extremadamente bajo en la plataforma de Huawei, alcanzando el 95% de la eficiencia del entrenamiento ordinario. Li Dahai explicó que la pérdida del 5% proviene de la sobrecarga del cuantizador en sí, y mediante una cooperación profunda con Huawei, esa sobrecarga se ha optimizado al mínimo.

MiniCPM-5 1B logra un rendimiento cercano al de GPT-4o en el benchmark ArtificialAnalysis

MiniMax Intelligence anunció que la versión 1B de quinta generación de MiniCPM Small Cannon logró una puntuación de 17,9 en la evaluación autorizada de ArtificialAnalysis (AA). Investigadores de la comunidad de código abierto compararon y encontraron que GPT-4o (200B parámetros), lanzado en mayo de 2024, obtuvo 18,3-18,6 en el mismo tipo de evaluación, con una diferencia de solo 0,4-0,7 puntos entre ambos. Li Dahai afirmó: "En 2024 predijimos que para finales de 2026, el nivel de inteligencia de los modelos en el borde podría alcanzar el nivel de GPT-4. Con los datos actuales, este objetivo se ha logrado antes de lo previsto".

Durante la anterior "MiniMax Open Source Week", MiniMax Intelligence lanzó dos modelos grandes de borde: MiniCPM5-1B y BitCPM-CANN. MiniCPM5-1B volvió a actualizar el límite superior de la densidad de inteligencia del modelo: con una escala de solo 1B parámetros, superó a todos los modelos por debajo de 2B parámetros en el reconocido leaderboard internacional AA-Index; en comparación con Qwen3.5-2B lanzado 3 meses antes, MiniCPM5-1B no solo tiene mejor rendimiento, sino que también redujo a la mitad los parámetros.

ForgeTrain, marco escrito por IA, entrena 10% más rápido que NVIDIA Megatron

El modelo MiniCPM5-1B se entrenó previamente con el marco de entrenamiento de IA desarrollado de forma independiente por MiniMax Intelligence, ForgeTrain, que es el primer marco de preentrenamiento de modelos grandes de calidad de producción del mundo escrito completamente por IA, sin participación de programadores humanos. La velocidad de entrenamiento es 10% más rápida que NVIDIA Megatron.

Preguntas frecuentes

¿Qué dijo Li Dahai sobre las limitaciones de la tecnología de agentes en la Conferencia 2026 de Beijing Zhiyuan?

Li Dahai afirmó que las expectativas públicas sobre agentes sin errores superan lo que puede entregar la curva actual de desarrollo técnico, y que la tecnología aún necesita tiempo para madurar. Describió las limitaciones actuales de los agentes como "problemas en todas partes", pero enfatizó que las tasas de error están bajando rápidamente: de 10% a 1% dentro de un mes en algunos casos.

¿Cómo se compara el rendimiento de MiniCPM-5 1B con GPT-4o en el benchmark ArtificialAnalysis?

MiniCPM-5 1B (con 1B parámetros) obtuvo 17,9 en la evaluación de ArtificialAnalysis, mientras que GPT-4o (con 200B parámetros, lanzado en mayo de 2024) obtuvo 18,3-18,6 en la misma evaluación, lo que dio como resultado una diferencia de solo 0,4-0,7 puntos entre los dos modelos.

¿Qué es ForgeTrain y cómo se compara con NVIDIA Megatron?

ForgeTrain es el marco de entrenamiento de IA desarrollado de forma independiente por MiniMax Intelligence, el primer marco de preentrenamiento de modelos grandes de calidad de producción del mundo escrito completamente por IA sin participación de programadores humanos. Entrena 10% más rápido que NVIDIA Megatron.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios