谷歌刚刚悄悄成为唯一能够在一个应用内生成文本、图片、视频和音乐的公司。


lyria 3 今天发布。这比人们想象的更重要的原因在这里。
目前的多模态评分:
Google Gemini:文本 ✅ 图片 ✅ 视频 ✅ 音乐 ✅
OpenAI:文本 ✅ 图片 ✅ 视频 ✅ 音乐 ❌ (即将到来)
Meta:文本 ✅ 图片 ✅ 视频 ✅ 音乐 ❌
Anthropic:文本 ✅ 图片 ❌ 视频 ❌ 音乐 ❌
谷歌首先完成了所有的任务。
lyria 3 支持文本转曲目、图片转曲目和视频转曲目。30秒的歌曲,带有定制歌词。你上传一张你的狗的照片,它会写一首关于你的狗的歌。
笨吗?也许。但这就是采用的开始方式。
专注于音乐AI的创业公司应该注意了。
suno 的年收入达2亿美元。融资时估值24.5亿美元。两年内拥有1亿用户。udio与环球和华纳达成和解。elevenlabs推出了音乐生成并达到了$200M ARR。
但谷歌刚刚让音乐生成在一个亿多人已经在用的应用中免费。
这就是打包策略,能击败创业公司。
还记得当独立的图片生成应用害怕DALL·E被集成到ChatGPT中吗?同样的套路。当分发渠道比产品大1000倍时,功能总是胜过产品。
今天,lyria 3只是一个30秒的玩具。suno提供音轨、修复、15分钟的曲目、声线角色。目前在质量上没有可比性。
但suno曾经比谷歌的第一个音乐模型更有优势。然后是v2,再到v3。每个版本差距都在缩小。
OpenAI也在开发一个。与朱利亚德的学生合作标注训练数据。据报道,新音频模型预计在三月推出。
但“预计”和“已发布”是两个不同的词。谷歌今天就发布了。
他们的策略与谷歌相同。将一切打包到一个对话中。
“帮我做个关于X的视频。现在加上音乐。现在写个标题。”
这才是产品。不是音乐生成器,而是全能生成器。
模态时间线讲述了整个故事:
2022年:文本生成 (所有人都在忙)
2023年:图片生成 (Midjourney爆发)
2024年:视频生成 (sora、runway、kling)
2025年:音乐生成 (suno突破2亿美元)
2026年:全部集成在一个应用中。只需一个提示。
这场比赛不是关于谁拥有最好的音乐AI,或最好的图片AI,或最好的视频AI。
而是关于谁能最先以一种毫不费力的方式将它们全部结合起来。
谷歌刚刚取得了领先。
我接下来关注的是:
OpenAI会在Q2之前发布音乐吗?
当谷歌将音乐生成免费打包时,suno的收入能保持吗?
“30秒玩具”多久能变成“3分钟的制作工具”?
多模态竞赛刚刚迎来了新的终点线。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)