Microsoft lanza tres modelos de IA de “ver, oír y hablar”, con la mira puesta en flujos de trabajo empresariales de nivel comercial de IA

ChainNewsAbmedia

2026-04-02 17:35:09

Después de que el 18 de marzo Microsoft lanzara el modelo de generación de imágenes MAI-Image-2, el 2 de abril volvió a publicar dos modelos relacionados con voz: MAI-Transcribe-1 y MAI-Voice-1. En un periodo corto, fueron completando de manera consecutiva las capacidades de imagen y de voz; esto se considera un impulso importante para su estrategia de IA multimodal. Estos tres modelos no son actualizaciones dispersas, sino un rompecabezas completo que va desde la generación visual, la comprensión de voz hasta la salida de voz, mostrando que Microsoft intenta construir una base de capacidades de IA que se pueda incrustar directamente en los flujos de trabajo empresariales.

MAI-Image-2 de Microsoft apunta a la generación de imágenes para uso comercial

MAI-Image-2, lanzado primero el 18 de marzo, deja claro que el enfoque está en lo “apto para uso comercial” en lugar de una simple generación creativa. En comparación con los modelos de imágenes anteriores que tendían hacia el entretenimiento o lo experimental, MAI-Image-2 pone más énfasis en la estabilidad de salida y la precisión semántica. Puede mantener la consistencia de la composición y la integridad de los detalles incluso bajo instrucciones complejas. Esto lo hace más adecuado para escenarios como materiales de marketing de marca, visuales de productos y diseño publicitario.

Para las empresas, el valor de este tipo de modelos no radica en si pueden generar imágenes impresionantes, sino en si pueden producir de forma continua contenido “útil y controlable”, que es justamente el núcleo reforzado por MAI-Image-2.

Clipto frustrado pero! Microsoft lanza un modelo para transcripción de reuniones palabra por palabra MAI-Transcribe-1

A continuación, el 2 de abril se lanzó MAI-Transcribe-1, centrado en la capacidad de comprensión de voz. El posicionamiento del modelo es bastante claro: se trata de una tecnología base para convertir voz en datos de texto estructurados. Puede procesar entradas de voz en tiempo real y mantener una alta precisión de reconocimiento en contextos de múltiples idiomas y diferentes acentos, además de contar con cierta resistencia a la interferencia del ruido de fondo.

Este tipo de capacidad es especialmente clave en entornos empresariales. Ya sea para transcripciones palabra por palabra de reuniones, registros de llamadas de atención al cliente o la organización de contenidos mediáticos, todo depende de una calidad estable de voz a texto. Una vez que los datos de voz puedan convertirse con precisión a texto, los procesos posteriores de búsqueda, resumen y análisis podrán automatizarse de manera integral; esta es también el papel clave de MAI-Transcribe-1 dentro de la arquitectura general de IA.

Usa el modelo MAI-Voice-1 para atención al cliente, Podcast de voz

Correspondientemente, MAI-Voice-1 se encarga del extremo de salida de voz. El enfoque del modelo consiste en hacer que la voz generada por IA se parezca más a la interpretación humana, incluyendo la naturalidad de entonación, ritmo y emoción. Esto permite aplicarlo a escenarios como voz de atención al cliente, asistentes de IA, doblaje de audio para video e incluso la producción de podcast. En comparación con la síntesis de voz más mecánica del pasado, MAI-Voice-1 pone más énfasis en el tono y el estilo ajustables, de modo que la voz deje de ser solo una herramienta de transmisión de información y se convierta en una interfaz con capacidades de comunicación y expresión.

Resumen total de los tres modelos de IA de Microsoft “ver, oír y hablar”

Si se observan los tres en un mismo contexto, se puede ver que el despliegue de Microsoft no es un avance puntual, sino una rápida progresión hacia la integración multimodal. MAI-Image-2 se encarga de la generación visual, MAI-Transcribe-1 de la comprensión de voz y MAI-Voice-1 completa la generación de voz; los tres, en conjunto, conforman la estructura básica de “ver, oír y hablar”.

Una vez que estas capacidades se combinan con los modelos de lenguaje existentes y los servicios en la nube, pueden formar un flujo de trabajo completo de IA: desde la entrada de datos, pasando por la comprensión y la generación, hasta la salida, todo dentro del mismo sistema.

Características

MAI-Transcribe-1

(de voz a texto)

MAI-Voice-1 (de texto a voz) MAI-Image-2 (de texto a imagen) Función principal

Convertir voz en transcripciones

Generar voz natural y fluida con emoción

Generar imágenes a partir de descripciones de texto

Fecha de lanzamiento

2 de abril de 2026

18 de marzo de 2026

Tecnologías clave y características

Alta resistencia al ruido, reconocimiento automático de idioma

Control de emoción, replicación de voz (Voice Prompting)

Arquitectura de modelos de difusión (Diffusion-based), alta fidelidad

Idiomas compatibles

Inglés, chino, español, etc., 25 idiomas

Actualmente solo limitado a inglés (próximamente ampliado a 10+ idiomas)

Principalmente con entrada de texto (sin indicación especial de soporte multilingüe)

Método de fijación de precios

Por hora de audio $0.36 dólares

Por cada millón de caracteres $22.00 dólares

Depende de la plataforma de despliegue (p. ej., MAI Playground)

Límites de entrada/salida

Entrada: WAV, MP3, FLAC

Entrada: texto sin formato o SSML

Salida: máximo 1024×1024 píxeles

Este artículo: Los tres modelos de IA “ver, oír y hablar” de Microsoft, apuntan a flujos de trabajo empresariales de IA de nivel comercial. El primero en aparecer en Cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios