2026-02-18 20:08:20

谷歌刚刚悄悄成为唯一能够在一个应用内生成文本、图片、视频和音乐的公司。

lyria 3 今天发布。这比人们想象的更重要的原因在这里。
目前的多模态评分：
Google Gemini：文本 ✅ 图片 ✅ 视频 ✅ 音乐 ✅
OpenAI：文本 ✅ 图片 ✅ 视频 ✅ 音乐 ❌ (即将到来)
Meta：文本 ✅ 图片 ✅ 视频 ✅ 音乐 ❌
Anthropic：文本 ✅ 图片 ❌ 视频 ❌ 音乐 ❌
谷歌首先完成了所有的任务。
lyria 3 支持文本转曲目、图片转曲目和视频转曲目。30秒的歌曲，带有定制歌词。你上传一张你的狗的照片，它会写一首关于你的狗的歌。
笨吗？也许。但这就是采用的开始方式。
专注于音乐AI的创业公司应该注意了。
suno 的年收入达2亿美元。融资时估值24.5亿美元。两年内拥有1亿用户。udio与环球和华纳达成和解。elevenlabs推出了音乐生成并达到了$200M ARR。
但谷歌刚刚让音乐生成在一个亿多人已经在用的应用中免费。
这就是打包策略，能击败创业公司。
还记得当独立的图片生成应用害怕DALL·E被集成到ChatGPT中吗？同样的套路。当分发渠道比产品大1000倍时，功能总是胜过产品。
今天，lyria 3只是一个30秒的玩具。suno提供音轨、修复、15分钟的曲目、声线角色。目前在质量上没有可比性。
但suno曾经比谷歌的第一个音乐模型更有优势。然后是v2，再到v3。每个版本差距都在缩小。
OpenAI也在开发一个。与朱利亚德的学生合作标注训练数据。据报道，新音频模型预计在三月推出。
但“预计”和“已发布”是两个不同的词。谷歌今天就发布了。
他们的策略与谷歌相同。将一切打包到一个对话中。
“帮我做个关于X的视频。现在加上音乐。现在写个标题。”
这才是产品。不是音乐生成器，而是全能生成器。
模态时间线讲述了整个故事：
2022年：文本生成 (所有人都在忙)
2023年：图片生成 (Midjourney爆发)
2024年：视频生成 (sora、runway、kling)
2025年：音乐生成 (suno突破2亿美元)
2026年：全部集成在一个应用中。只需一个提示。
这场比赛不是关于谁拥有最好的音乐AI，或最好的图片AI，或最好的视频AI。
而是关于谁能最先以一种毫不费力的方式将它们全部结合起来。
谷歌刚刚取得了领先。
我接下来关注的是：
OpenAI会在Q2之前发布音乐吗？
当谷歌将音乐生成免费打包时，suno的收入能保持吗？
“30秒玩具”多久能变成“3分钟的制作工具”？
多模态竞赛刚刚迎来了新的终点线。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

赞赏
2
评论
转发
分享

0/400

暂无评论

热门 Gate Fun
查看更多

1
⊙▽⊙
喵天师
市值:$2417.24持有人数:1
0.00%
2
xagusdt
xag
市值:$0.1持有人数:1
0.00%
3
kag
silver
市值:$2437.93持有人数:1
0.00%
4
马驮着一袋钱
马驮着一袋钱
市值:$2450.27持有人数:1
0.00%
5
發發發發
發發發發
市值:$2472.54持有人数:2
0.02%

谷歌刚刚悄悄成为唯一能够在一个应用内生成文本、图片、视频和音乐的公司。

热门话题

Gate广场发帖领五万美金红包

何时是最佳入场时机

2022以来最大加密资产流出

Gate春节赛马红包嘉年华

我在Gate广场过新年

热门 Gate Fun

⊙▽⊙

喵天师

xagusdt

xag

kag

silver

马驮着一袋钱

马驮着一袋钱

發發發發

發發發發

置顶