Google acaba de convertirse silenciosamente en la única empresa que puede generar texto, imágenes, video y música dentro de una misma aplicación.


Lyria 3 se lanzó hoy. Aquí por qué eso importa más de lo que la gente piensa.
El tablero multimodal en este momento:
Google Gemini: texto ✅ imágenes ✅ video ✅ música ✅
OpenAI: texto ✅ imágenes ✅ video ✅ música ❌ (próximamente)
Meta: texto ✅ imágenes ✅ video ✅ música ❌
Anthropic: texto ✅ imágenes ❌ video ❌ música ❌
Google acaba de marcar todas las casillas primero.
Lyria 3 hace texto a pistas, imagen a pistas y video a pistas. Canciones de 30 segundos con letras personalizadas. Subes una foto de tu perro y ella escribe una canción sobre tu perro.
¿Tonto? Quizá. Pero así empieza la adopción.
Las startups dedicadas a la IA musical deberían estar prestando atención.
Suno genera $200M/yr en ingresos. levantó fondos con una valoración de $2.45B. 100M de usuarios en 2 años. Udio se resolvió con Universal y Warner. ElevenLabs lanzó generación de música y alcanzó $200M ARR.
Pero Google acaba de hacer que la generación de música sea gratuita dentro de una app que miles de millones de personas ya usan.
Esta es la jugada de integración que mata startups.
¿Recuerdas cuando las apps independientes de generación de imágenes temían que DALL-E se integrara en ChatGPT? Mismo plan. La función siempre gana sobre el producto cuando la distribución es 1000x mayor.
Hoy, Lyria 3 es un juguete de 30 segundos. Suno te da stems, inpainting, pistas de 15 minutos, personajes vocales. No hay comparación en calidad ahora mismo.
Pero Suno tenía la misma ventaja sobre el primer modelo de música de Google. Luego V2. Luego V3. La brecha se cierra en cada versión.
OpenAI también está construyendo uno. Se asoció con estudiantes de Juilliard para anotar datos de entrenamiento. Se rumorea que un nuevo modelo de audio llegará en marzo.
Pero "esperado" y "enviado" son palabras diferentes. Google lo envió hoy.
Su estrategia es la misma que la de Google. Agrupar todo en una sola conversación.
"Hazme un video sobre X. Ahora añade música. Ahora escribe la leyenda."
Ese es el producto. No un generador de música. un generador de todo.
La línea de tiempo de las modalidades cuenta toda la historia:
2022: generación de texto (todos se apresuran)
2023: generación de imágenes (midjourney explota)
2024: generación de video (sora, runway, kling)
2025: generación de música (suno alcanza $200M)
2026: todo. en una sola app. desde un solo prompt.
La carrera no es sobre quién tiene la mejor IA musical. o la mejor IA de imágenes. o la mejor IA de video.
es sobre quién las integra primero de una manera que parezca sin esfuerzo.
Google acaba de tomar la delantera.
Lo que voy a observar a continuación:
¿OpenAI lanza música antes del Q2?
¿Se mantiene el ingreso de Suno cuando Google agrupa la generación de música gratis?
¿qué tan rápido pasa de ser un "juguete de 30 segundos" a una "herramienta de producción de 3 minutos"?
La carrera multimodal acaba de tener una nueva línea de meta.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)