廣場
最新
熱門
新聞
我的主頁
發布
Leo lau
2025-12-29 10:39:00
關注
2025年,机器人領域教給我的3件事 @DrJimFan
1⃣️硬體走在軟體前面,但硬體可靠性嚴重限制了軟體迭代速度我們已經看到了極其精妙的工程傑作:Optimus、e-Atlas、Figure、Neo、G1等等。但問題是,我們最好的AI還遠沒有把這些前沿硬體的潛力榨乾。(機器人)身體的能力,明顯強過大腦目前能發出的指令。然而,要“伺候”這些機器人,往往需要一整個運維團隊。機器人不像人類那樣會自我修復:過熱、馬達損壞、詭異的韌體問題,幾乎是日常噩夢。錯誤一旦發生,就是不可逆、也不寬容的。真正被scaling的,只有我的耐心。
2⃣️機器人領域的基準測試,依然是一場史詩級災難在大模型世界裡,人人都知道MMLU、SWE-Bench是怎麼回事。但在機器人領域沒有任何共識:用什麼硬體平台、任務如何定義、評分標準是什麼、用哪種模擬器,還是直接上真實世界?按定義來說,每個人都是SOTA——因為每次發新聞,都会臨時定義一個新的benchmark。每個人都會從100次失敗裡,挑出那次最好看的demo。到2026年,我們這個領域必須做得更好,不能再把可復現性和科學規範當成二等公民。
3⃣️基於VLM的VLA路線,总感觉不太对VLA指的是Vision-Language-Action(視覺-語言-動作)模型,目前這是機器人大腦的主流範式。配方也很簡單:拿一個預訓練好的VLM checkpoint,在上面“嫁接”一個動作模塊。但仔細想想就會發現問題。VLM 本質上是被高度優化用來爬諸如視覺問答這類benchmark的,這直接帶來兩個後果:VLM的大多數參數,都服務於語言和知識,而不是物理世界;視覺編碼器被主動訓練去丟棄低層細節,因為問答任務只需要高層理解,但對機器人來說,微小細節對靈巧操作至關重要。因此,VLA 的性能沒有理由隨著VLM參數規模的增長而線性提升。問題出在預訓練目標本身就不對齊。 #AI #Robtics
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
讚賞
按讚
留言
轉發
分享
留言
0/400
留言
暫無留言
熱門話題
查看更多
#
Gate2月透明度報告
5.6萬 熱度
#
國際油價突破100美元
14.62萬 熱度
#
#微策略再砸12.8億美元增持BTC
8614.65萬 熱度
#
哈梅內伊之子當選伊朗領袖
63.91萬 熱度
#
Gate藍龍蝦
3.41萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
DF
Delta Force
市值:
$2417.24
持有人數:
1
0.00%
2
YFC
YFC
市值:
$2465.41
持有人數:
2
0.23%
3
wocao
握草
市值:
$2413.79
持有人數:
0
0.00%
4
GAM
明星资本
市值:
$0.1
持有人數:
1
0.00%
5
OpenClaw
龙虾币
市值:
$2417.24
持有人數:
1
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
2025年,机器人領域教給我的3件事 @DrJimFan
1⃣️硬體走在軟體前面,但硬體可靠性嚴重限制了軟體迭代速度我們已經看到了極其精妙的工程傑作:Optimus、e-Atlas、Figure、Neo、G1等等。但問題是,我們最好的AI還遠沒有把這些前沿硬體的潛力榨乾。(機器人)身體的能力,明顯強過大腦目前能發出的指令。然而,要“伺候”這些機器人,往往需要一整個運維團隊。機器人不像人類那樣會自我修復:過熱、馬達損壞、詭異的韌體問題,幾乎是日常噩夢。錯誤一旦發生,就是不可逆、也不寬容的。真正被scaling的,只有我的耐心。
2⃣️機器人領域的基準測試,依然是一場史詩級災難在大模型世界裡,人人都知道MMLU、SWE-Bench是怎麼回事。但在機器人領域沒有任何共識:用什麼硬體平台、任務如何定義、評分標準是什麼、用哪種模擬器,還是直接上真實世界?按定義來說,每個人都是SOTA——因為每次發新聞,都会臨時定義一個新的benchmark。每個人都會從100次失敗裡,挑出那次最好看的demo。到2026年,我們這個領域必須做得更好,不能再把可復現性和科學規範當成二等公民。
3⃣️基於VLM的VLA路線,总感觉不太对VLA指的是Vision-Language-Action(視覺-語言-動作)模型,目前這是機器人大腦的主流範式。配方也很簡單:拿一個預訓練好的VLM checkpoint,在上面“嫁接”一個動作模塊。但仔細想想就會發現問題。VLM 本質上是被高度優化用來爬諸如視覺問答這類benchmark的,這直接帶來兩個後果:VLM的大多數參數,都服務於語言和知識,而不是物理世界;視覺編碼器被主動訓練去丟棄低層細節,因為問答任務只需要高層理解,但對機器人來說,微小細節對靈巧操作至關重要。因此,VLA 的性能沒有理由隨著VLM參數規模的增長而線性提升。問題出在預訓練目標本身就不對齊。 #AI #Robtics