o google acabou de se tornar silenciosamente a única empresa capaz de gerar texto, imagens, vídeo E música dentro de uma única aplicação.


lyria 3 foi lançada hoje. aqui está o porquê de isso importar mais do que as pessoas pensam.
o quadro de pontuação multimodal neste momento:
Google Gemini: texto ✅ imagens ✅ vídeo ✅ música ✅
OpenAI: texto ✅ imagens ✅ vídeo ✅ música ❌ (chegando)
Meta: texto ✅ imagens ✅ vídeo ✅ música ❌
Anthropic: texto ✅ imagens ❌ vídeo ❌ música ❌
o google acabou de marcar todas as caixas primeiro.
lyria 3 faz texto para faixas, imagem para faixas, e vídeo para faixas. canções de 30 segundos com letras personalizadas. você envia uma foto do seu cão e ele escreve uma música sobre o seu cão.
idiota? talvez. mas é assim que a adoção começa.
as startups dedicadas a IA de música devem estar prestando atenção.
suno gera $200M/ano de receita. levantou capital a $2,45B. 100M de usuários em 2 anos. udio fechou acordo com universal e warner. elevenlabs lançou geração de música e atingiu $200M ARR.
mas o google acabou de tornar a geração de música gratuita dentro de um aplicativo que bilhões de pessoas já usam.
este é o movimento de agrupamento que mata startups.
lembra quando aplicativos independentes de geração de imagens temiam que o dall-e fosse incorporado ao chatgpt? mesma estratégia. o recurso sempre supera o produto quando a distribuição é 1000x maior.
hoje a lyria 3 é um brinquedo de 30 segundos. suno oferece stems, inpainting, faixas de 15 minutos, personas vocais. sem comparação em qualidade agora.
mas o suno tinha a mesma vantagem sobre o primeiro modelo de música do google. depois v2. depois v3. a diferença se fecha a cada versão.
a openai também está construindo um. fez parceria com estudantes da Juilliard para anotar dados de treinamento. um novo modelo de áudio deve chegar até março.
mas "esperado" e "enviado" são palavras diferentes. o google enviou hoje.
o movimento deles é o mesmo que o do google. agrupar tudo em uma única conversa.
"faça um vídeo sobre X. agora adicione música. agora escreva a legenda."
esse é o produto. não um gerador de música. um gerador de tudo.
a linha do tempo da modalidade conta toda a história:
2022: geração de texto (todo mundo se apressa)
2023: geração de imagem (midjourney explode)
2024: geração de vídeo (sora, runway, kling)
2025: geração de música (suno atinge $200M)
2026: tudo isso. em um aplicativo. a partir de um único comando.
a corrida não é sobre quem tem a melhor IA de música. ou a melhor IA de imagem. ou a melhor IA de vídeo.
é sobre quem os reúne todos primeiro de uma forma que pareça natural.
o google acabou de assumir a liderança.
o que estou acompanhando a seguir:
a openai lança música antes do Q2?
a receita do suno se mantém quando o google disponibiliza geração de música grátis?
quão rápido o "brinquedo de 30 segundos" se torna uma "ferramenta de produção de 3 minutos"?
a corrida multimodal acabou de ganhar uma nova linha de chegada.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)