Después de que el 18 de marzo Microsoft lanzara el modelo de generación de imágenes MAI-Image-2, el 2 de abril volvió a publicar dos modelos relacionados con voz: MAI-Transcribe-1 y MAI-Voice-1. En un periodo corto, fueron completando de manera consecutiva las capacidades de imagen y de voz; esto se considera un impulso importante para su estrategia de IA multimodal. Estos tres modelos no son actualizaciones dispersas, sino un rompecabezas completo que va desde la generación visual, la comprensión de voz hasta la salida de voz, mostrando que Microsoft intenta construir una base de capacidades de IA que se pueda incrustar directamente en los flujos de trabajo empresariales.
MAI-Image-2 de Microsoft apunta a la generación de imágenes para uso comercial
MAI-Image-2, lanzado primero el 18 de marzo, deja claro que el enfoque está en lo “apto para uso comercial” en lugar de una simple generación creativa. En comparación con los modelos de imágenes anteriores que tendían hacia el entretenimiento o lo experimental, MAI-Image-2 pone más énfasis en la estabilidad de salida y la precisión semántica. Puede mantener la consistencia de la composición y la integridad de los detalles incluso bajo instrucciones complejas. Esto lo hace más adecuado para escenarios como materiales de marketing de marca, visuales de productos y diseño publicitario.
Para las empresas, el valor de este tipo de modelos no radica en si pueden generar imágenes impresionantes, sino en si pueden producir de forma continua contenido “útil y controlable”, que es justamente el núcleo reforzado por MAI-Image-2.
Clipto frustrado pero! Microsoft lanza un modelo para transcripción de reuniones palabra por palabra MAI-Transcribe-1
A continuación, el 2 de abril se lanzó MAI-Transcribe-1, centrado en la capacidad de comprensión de voz. El posicionamiento del modelo es bastante claro: se trata de una tecnología base para convertir voz en datos de texto estructurados. Puede procesar entradas de voz en tiempo real y mantener una alta precisión de reconocimiento en contextos de múltiples idiomas y diferentes acentos, además de contar con cierta resistencia a la interferencia del ruido de fondo.
Este tipo de capacidad es especialmente clave en entornos empresariales. Ya sea para transcripciones palabra por palabra de reuniones, registros de llamadas de atención al cliente o la organización de contenidos mediáticos, todo depende de una calidad estable de voz a texto. Una vez que los datos de voz puedan convertirse con precisión a texto, los procesos posteriores de búsqueda, resumen y análisis podrán automatizarse de manera integral; esta es también el papel clave de MAI-Transcribe-1 dentro de la arquitectura general de IA.
Usa el modelo MAI-Voice-1 para atención al cliente, Podcast de voz
Correspondientemente, MAI-Voice-1 se encarga del extremo de salida de voz. El enfoque del modelo consiste en hacer que la voz generada por IA se parezca más a la interpretación humana, incluyendo la naturalidad de entonación, ritmo y emoción. Esto permite aplicarlo a escenarios como voz de atención al cliente, asistentes de IA, doblaje de audio para video e incluso la producción de podcast. En comparación con la síntesis de voz más mecánica del pasado, MAI-Voice-1 pone más énfasis en el tono y el estilo ajustables, de modo que la voz deje de ser solo una herramienta de transmisión de información y se convierta en una interfaz con capacidades de comunicación y expresión.
Resumen total de los tres modelos de IA de Microsoft “ver, oír y hablar”
Si se observan los tres en un mismo contexto, se puede ver que el despliegue de Microsoft no es un avance puntual, sino una rápida progresión hacia la integración multimodal. MAI-Image-2 se encarga de la generación visual, MAI-Transcribe-1 de la comprensión de voz y MAI-Voice-1 completa la generación de voz; los tres, en conjunto, conforman la estructura básica de “ver, oír y hablar”.
Una vez que estas capacidades se combinan con los modelos de lenguaje existentes y los servicios en la nube, pueden formar un flujo de trabajo completo de IA: desde la entrada de datos, pasando por la comprensión y la generación, hasta la salida, todo dentro del mismo sistema.
Características
MAI-Transcribe-1
(de voz a texto)
MAI-Voice-1 (de texto a voz) MAI-Image-2 (de texto a imagen) Función principal
Convertir voz en transcripciones
Generar voz natural y fluida con emoción
Generar imágenes a partir de descripciones de texto
Fecha de lanzamiento
2 de abril de 2026
2 de abril de 2026
18 de marzo de 2026
Tecnologías clave y características
Alta resistencia al ruido, reconocimiento automático de idioma
Control de emoción, replicación de voz (Voice Prompting)
Arquitectura de modelos de difusión (Diffusion-based), alta fidelidad
Idiomas compatibles
Inglés, chino, español, etc., 25 idiomas
Actualmente solo limitado a inglés (próximamente ampliado a 10+ idiomas)
Principalmente con entrada de texto (sin indicación especial de soporte multilingüe)
Método de fijación de precios
Por hora de audio $0.36 dólares
Por cada millón de caracteres $22.00 dólares
Depende de la plataforma de despliegue (p. ej., MAI Playground)
Límites de entrada/salida
Entrada: WAV, MP3, FLAC
Entrada: texto sin formato o SSML
Salida: máximo 1024×1024 píxeles
Este artículo: Los tres modelos de IA “ver, oír y hablar” de Microsoft, apuntan a flujos de trabajo empresariales de IA de nivel comercial. El primero en aparecer en Cadena de noticias ABMedia.