大語言模型之間的競爭確實白熱化了。最近幾個月的進展來看,GLM-4.7在Agent相關任務上的表現相當能打——無論是工具調用、網頁爬取還是數學推理,都展現出不少優勢。不過在軟件工程能力(SWE-bench標準)和命令行操作精度上,Claude和GPT依然保持領先。



有趣的是,這些模型在加密應用場景的表現差異更明顯。每家都在強調自己對鏈上數據分析、智能合約審計、DeFi交互的適配能力,但實際效果還是因任務而異。特別是在處理復雜的多步操作和工程級代碼生成時,不同模型的天花板差距還挺大的。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 轉發
  • 分享
留言
0/400
幽灵钱包侦探vip
· 8小時前
GLM最近确实猛,但話說回來,這些模型在鏈上真正能用的場景還是有限啊...光吹自己對DeFi適配多強也沒用,得看真金白銀的審計結果才算數
查看原文回復0
永赢矿工vip
· 12-23 12:55
哈哈GLM這波確實有點東西,不過加密圈還是得看誰能真正搞定鏈上復雜操作,光吹牛皮沒用啊 --- 說實話,這幾家模型在DeFi場景裏的表現參差不齊,有時候感覺都在互相吹 --- Agent任務厲害有啥用,關鍵是能不能穩定調用合約,這塊真的是天花板差異大 --- GLM-4.7看起來不錯,但我還是等等看能不能真的用來審計智能合約,現在都太理想化了 --- web3應用這塊每家都在吹自己最行,到底誰行啊,還不是得上鏈實測一把 --- 工程級代碼生成差距這麼大,怎麼指望模型能寫出靠譜的合約呢,有點擔心 --- 不就是各有各的長處嘛,看場景選工具唄,別非要分出個一二三來
查看原文回復0
RektCoastervip
· 12-23 12:46
GLM這波確實有點東西,Agent那塊真的能打。不過swe-bench上還是得看Claude和GPT啊,差距還是有的。 鏈上那塊各自吹各自的,誰上手用誰知道...DeFi合約審計還是得多幾個模型交叉驗證,一個單喫不了這飯。
查看原文回復0
PriceOracleFairyvip
· 12-23 12:34
glm 在代理任務上進展迅速,但哈哈... 說實話,談到實際的鏈上套利執行和合約審計?claude 仍然是我信任的對象,用我手裏的閒錢。代理的靈活性毫無意義,如果你不能在沒有幻覺 calldata 的情況下抓住 2 秒的 mev 窗口 🤔
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)