大语言模型之间的竞争确实白热化了。最近几个月的进展来看,GLM-4.7在Agent相关任务上的表现相当能打——无论是工具调用、网页爬取还是数学推理,都展现出不少优势。不过在软件工程能力(SWE-bench标准)和命令行操作精度上,Claude和GPT依然保持领先。



有趣的是,这些模型在加密应用场景的表现差异更明显。每家都在强调自己对链上数据分析、智能合约审计、DeFi交互的适配能力,但实际效果还是因任务而异。特别是在处理复杂的多步操作和工程级代码生成时,不同模型的天花板差距还挺大的。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 转发
  • 分享
评论
0/400
永赢矿工vip
· 12-23 12:55
哈哈GLM这波确实有点东西,不过加密圈还是得看谁能真正搞定链上复杂操作,光吹牛皮没用啊 --- 说实话,这几家模型在DeFi场景里的表现参差不齐,有时候感觉都在互相吹 --- Agent任务厉害有啥用,关键是能不能稳定调用合约,这块真的是天花板差异大 --- GLM-4.7看起来不错,但我还是等等看能不能真的用来审计智能合约,现在都太理想化了 --- web3应用这块每家都在吹自己最行,到底谁行啊,还不是得上链实测一把 --- 工程级代码生成差距这么大,怎么指望模型能写出靠谱的合约呢,有点担心 --- 不就是各有各的长处嘛,看场景选工具呗,别非要分出个一二三来
回复0
RektCoastervip
· 12-23 12:46
GLM这波确实有点东西,Agent那块真的能打。不过swe-bench上还是得看Claude和GPT啊,差距还是有的。 链上那块各自吹各自的,谁上手用谁知道...DeFi合约审计还是得多几个模型交叉验证,一个单吃不了这饭。
回复0
PriceOracleFairyvip
· 12-23 12:34
glm 在代理任务上进展迅速,但哈哈... 说实话,谈到实际的链上套利执行和合约审计?claude 仍然是我信任的对象,用我手里的闲钱。代理的灵活性毫无意义,如果你不能在没有幻觉 calldata 的情况下抓住 2 秒的 mev 窗口 🤔
查看原文回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)