2025-12-23 07:21:04

xAI 的 Grok 4.1 正在提升 RAG 模型在多个领域的表现。最新的基准测试讲述了一个故事——在处理编码任务时，Grok 达到了 86，获得了第一的位置。在金融特定应用中，它更是以 93.0 的得分更加用力，建立了明显的竞争优势。在法律分析方面，它与龙头替代品抗衡，保持了自己的立场。

这尤其相关的原因在于这些数字如何转化为实际使用。复杂、冗长的文件——通常对大多数系统构成挑战的那种——似乎能够以可衡量的一致性处理。这使得Grok不仅仅是人工智能领域的另一个参与者，而是为需要在处理复杂信息工作负载时提供可靠性能的用户提供了一个有意义的选择。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

12人点赞了这条动态

赞赏
12
3
转发
分享

0/400

烧钱研究协会

· 2025-12-23 07:44

金融93.0...我套利算法的败率也是这个数字，只不过方向相反。Grok真的绝了，我的智能合约比不了。

MEV牺牲品

· 2025-12-23 07:40

金融93.0？这分数有点猛啊，得试试能不能真的用 Grok在复杂文件上的表现我信，但就怕又是纸面数据编码86第一...不过这些benchmark都是虚的，实战怎么样才是王道法律领域也能抗衡？感觉这次xAI是来真的了数字好看归好看，问题是能不能稳定处理长文件，这才是关键 RAG模型现在内卷成这样，谁才是真正的生产力工具呢

快照暴击手

· 2025-12-23 07:37

金融93分？这数字有点狠啊，不过实际能用到什么程度还得看... --- 编码86第一、金融93...纸面数据永远这么好看，真问题是跑起来稳不稳 --- 长文件处理能力强这点确实戳到痛点了，不过Grok真能干这事还是得试过才信 --- 一堆benchmark数字砸过来，但我就想知道这东西能不能替代我现在用的工具 --- 金融应用93分听起来猛，不过金融这块儿门槛高，稳定性比分数重要多了吧 --- 噢所以就是说Grok在处理复杂文件上有点东西，但能便宜到什么价位呢？ --- 编码、金融、法律都来？这是要全能还是样样通样样松啊

热门话题
查看更多
#
周末行情分析
2.28万热度
#
中文Meme币热潮
3.48万热度
#
GateLaunchpadIMU
2.68万热度
#
隐私币行情分化
8902 热度
#
BitMine持续加码ETH质押
7996 热度

热门 Gate Fun
查看更多

1
中国首富币
中国首富币
市值:$5684.27持有人数:2
9.62%
2
改天换地
NBBBB
市值:$3555.17持有人数:1
0.00%
3
逆天改命
NTGM
市值:$3548.27持有人数:1
0.00%
4
火马年
火马年
市值:$7210.98持有人数:2
15.71%
5
首富马
首富马
市值:$3805.61持有人数:2
1.08%

热门话题

周末行情分析

中文Meme币热潮

GateLaunchpadIMU

隐私币行情分化

BitMine持续加码ETH质押

热门 Gate Fun

中国首富币

中国首富币

改天换地

NBBBB

逆天改命

NTGM

火马年

火马年

首富马

首富马

置顶