Gran modelo丨Meituan lanza el modelo multimodal nativo LongCat-Next

robot
Generación de resúmenes en curso

Meituan (03690) ha lanzado y abierto completamente el modelo multimodal nativo LongCat-Next, así como su componente central, el segmentador visual de resolución discreta nativa (dNaViT).

Este modelo logra por primera vez mapear de manera unificada imágenes, voces y textos en tokens discretos de origen común. Abandona la estructura tradicional centrada en el lenguaje, adoptando en todo momento el paradigma de “predicción del siguiente token” (Next Token Prediction, NTP). Su objetivo es hacer que la visión y el audio sean modalidades de entrada nativas en la inteligencia artificial (IA), mejorando la comprensión y generación multimodal. El modelo está abierto para desarrolladores de todo el mundo, siendo apto para el desarrollo de aplicaciones multimodales localizadas en diferentes idiomas.

Anteriormente, Meituan lanzó y open source LongCat-Flash-Thinking-2601, una versión mejorada del modelo LongCat-Flash-Thinking, que en los principales criterios de evaluación como búsqueda de agentes (Agentic Search), uso de herramientas por agentes (Agentic Tool Use) y razonamiento interactivo con herramientas (TIR), alcanza el estado del arte (SOTA) en modelos de código abierto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado