Microsoft ResearcherがPerplexity自社基準で勝利:二重モデル評価がFrontierに進出、Coworkが長期タスク代理を同期公開

BlockBeatNews

1M AI News のモニタリングによると、Microsoft は Frontier(企業ユーザー向けの先行プレビュー「チャンスを味わう計画」で、参加者は正式に公開されていない Copilot 機能を事前に試用できる)を通じて、2 つの新しい Microsoft 365 Copilot の機能を同期して公開しました。

Researcher(Copilot に内蔵された深い調査 Agent)は、Critique と Council という 2 種類のマルチモデル協調モードを追加しました。Critique は Anthropic と OpenAI 傘下のモデルの協業によって実現されます。1 つは計画、検索、下書きを担当し、もう 1 つはレビューと推敲の専門担当で、Auto を選択するとデフォルトで有効になります。Council も同様に両社のモデルを並行して動かし、それぞれが完全なレポートを生成し、最後に別の評価モデルが論点の一致と相違を取りまとめます。Microsoft は評価モデルとして GPT-5.2 を使用しています(元論文の 3 種類の評価手法のうち最も厳格なもの)。DRACO ベンチマーク(Perplexity の研究者が公開した 100 問の複雑なリサーチ課題で、10 の分野をカバー)で Critique をテストし、総合スコアはベンチマーク中の最良システムである Perplexity Deep Research(Claude Opus 4.6 を使用)より 7.0 ポイント高く、相対的に 13.88% の改善となりました。DRACO の元論文には Critique は収録されていません。これは Microsoft が同一の評価プロトコルに従って自社でテストして得たデータです。

Copilot Cowork は、より長い多段階の作業を対象としています。まず目標に基づいて計画を生成し、その後ツールやファイルをまたいで段階的に進め、作業中は進捗を表示します。ユーザーはいつでも途中に介入できます。Microsoft は Capital Group を早期試用の事例として挙げ、すでにプロジェクト計画、日程調整、納品物の作成、幹部の復習(リキャップ)の準備に使用されていると述べています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし