谷歌剛悄悄成為唯一能在一個應用程式內生成文字、圖像、影片和音樂的公司。


lyria 3 今天發布。這就是為什麼這比人們想像中更重要的原因。
目前的多模態排行榜:
Google Gemini:文字 ✅ 圖像 ✅ 影片 ✅ 音樂 ✅
OpenAI:文字 ✅ 圖像 ✅ 影片 ✅ 音樂 ❌ (即將來臨)
Meta:文字 ✅ 圖像 ✅ 影片 ✅ 音樂 ❌
Anthropic:文字 ✅ 圖像 ❌ 影片 ❌ 音樂 ❌
Google 率先完成了每一個項目。
lyria 3 支援文字轉曲目、圖像轉曲目,以及影片轉曲目。30秒的歌曲,帶有自訂歌詞。你上傳一張你的狗的照片,它就會寫一首關於你狗的歌。
笨嗎?也許。但這就是採用的開始方式。
專注於音樂的AI新創公司應該要注意了。
suno 的年收入達到2億美元。融資時估值24.5億美元。兩年內擁有1億用戶。udio 與環球和華納達成和解。elevenlabs 推出了音樂生成並達到 $200M ARR。
但谷歌剛剛讓音樂生成在一個已被數十億人使用的應用內免費提供。
這是那種打包策略,會扼殺新創公司。
還記得當獨立圖像生成應用害怕 DALL·E 被整合到 ChatGPT 嗎?同樣的策略。當分發規模是1000倍大時,功能總是勝過產品。
今天,lyria 3 只是一個30秒的玩具。suno 提供音軌、修補、15分鐘的曲目、歌唱角色。目前在品質上沒有可比性。
但 suno 曾經比谷歌的第一代音樂模型更有優勢。然後是 v2,再到 v3。每個版本差距都在縮小。
OpenAI 也在打造一個。與朱利亞德的學生合作標註訓練資料。據說新的音頻模型預計在三月推出。
但“預期”和“已出貨”是不同的詞。谷歌今天就已出貨。
他們的策略與谷歌相同。將所有功能打包成一個對話。
“幫我做一個關於X的影片。現在加入音樂。現在寫個標題。”
這才是產品。不是一個音樂生成器,而是一個萬能生成器。
模態時間線講述了整個故事:
2022年:文字生成 (所有人都在忙)
2023年:圖像生成 (Midjourney爆炸)
2024年:影片生成 (sora、runway、kling)
2025年:音樂生成 (suno達到2億美元)
2026年:全部都在一個應用內。只需一個提示。
比賽不在於誰擁有最好的音樂AI,或最好的圖像AI,或最好的影片AI。
而在於誰能最先將它們整合在一起,讓人感覺毫不費力。
谷歌剛剛取得了領先。
我接下來要關注的是:
OpenAI 會在Q2前推出音樂嗎?
當谷歌將音樂生成免費打包時,suno的收入能否維持?
“30秒玩具”多久會變成“3分鐘的製作工具”?
多模態比賽剛剛多了一個終點線。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)