xAIのGrok 4.1は、複数のドメインにわたるRAGベースのモデルのパフォーマンスの基準を引き上げています。最新のベンチマークは非常に興味深い物語を語っています。コーディングタスクに関しては、Grokは86を達成し、トップの座を獲得しています。金融特化型アプリケーションでは、さらに強力に93.0のスコアを出し、明確な競争優位を確立しています。法的分析においては、リーディングの代替案に対抗しています。



これが特に重要なのは、これらの数字が実世界の使用にどのように変換されるかです。複雑で長い文書—通常、ほとんどのシステムにとって挑戦となるタイプ—は、測定可能な一貫性を持って処理されているようです。これは、GrokをAI分野の単なるプレイヤーとしてではなく、複雑な情報のワークロードを扱う際に信頼できるパフォーマンスを必要とするユーザーにとって意義のある選択肢として位置付けています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • リポスト
  • 共有
コメント
0/400
MoneyBurnerSocietyvip
· 12-23 07:44
金融93.0...私のアービトラージアルゴリズムの敗率もこの数字ですが、方向は逆です。Grokは本当にすごい、私のスマートコントラクトには敵わない。
原文表示返信0
MEVvictimvip
· 12-23 07:40
金融93.0?このスコアはちょっと凄いですね、試してみるべきかもしれません。 Grokの複雑なファイルでのパフォーマンスは信じていますが、また紙の上のデータではないかと心配です。 コーディング86第一...しかしこれらのベンチマークはすべて虚構で、実戦でどうなるかが重要です。 法律分野でも対抗できる?今回のxAIは本気で来ている感じがします。 数字が綺麗なのはいいけれど、問題は長いファイルを安定して処理できるかどうか、これが鍵です。 RAGモデルは今こんな風に内輪もめしていますが、誰が本当の生産性の道具なのでしょうか。
原文表示返信0
SnapshotStrikervip
· 12-23 07:37
金融93点?この数字はちょっと厳しいですが、実際にどの程度使えるかはまだ見なければ... --- コーディング86第一、金融93...紙面のデータはいつもこんなに美しいですが、本当の問題は実行できるかどうかです --- 長いファイル処理能力が強いという点は確かに痛いところを突いていますが、Grokが本当にこれをやれるかどうかは試してみるまで信じられません --- 大量のベンチマーク数字が押し寄せてきますが、私はこのツールが今使っているものに代わるかどうか知りたいだけです --- 金融アプリケーション93点は聞こえが良いですが、金融の分野はハードルが高く、安定性は点数よりも重要ですよね --- ああ、つまりGrokは複雑なファイルの処理にちょっとしたものがあるということですが、どのくらいの価格で安くなるのでしょうか? --- コーディング、金融、法律も来る?これは全能を目指しているのか、それとも何でもできるが何もできないということですか?
原文表示返信0
  • ピン