カーソルが自動インストールのトレーニング手法を明らかにし、Composer 2のパフォーマンスを14ポイント引き上げます

Cursorの最近の開示によると、同社はComposerモデルシリーズ向けの「autoinstall」と呼ばれる学習手法を公開し、次世代の強化学習のために実行可能な環境を自動的にセットアップするために、前世代のモデルを使用するとしています。Composer 2のトレーニングでは、このタスクを完了するためにCursorはComposer 1.5を使用しました。この手法は2つのステップで動作します。まず、エージェントがコードリポジトリのドキュメントと設定を読み取り、期待される出力を伴う検証コマンドを10個生成します。次に、別のエージェントがそれらのうち3つのコマンドを使って、コマンドが正常に実行されるまで、環境をゼロから構成します。最大5回のリトライ試行が行われます。Composer 2は、環境セットアップ能力を測定するベンチマーク「Terminal-Bench」で61.7%のスコアを達成し、Composer 1.5の47.9%と比べて14ポイントの改善となりました。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

OpenAI、競合するAIアシスタントから設定を取り込むためのCodex移行ツールをリリース

OneMillionAI(Beating)によると、OpenAIはCodexの中に移行ツールをリリースしており、Claude Codeを含む他のAIコーディングアシスタントから構成やデータを取り込めるようになっています。このツールはOpenAIの公式Twitterアカウントで告知されており、システムプロンプト、カスタムスキル、30日間のチャット履歴、MCPサーバーの設定、フック、サブエージェントの設定を自動的に転送します。 OpenAIは、この移行ツールはCodexの設定内にある「Import other agent setup」オプションによって、ほとんどの構成を自動的に処理すると説明しました。互換性のない設定については、ツールが案内付きの対話を開始して、ユーザーの手動移行を支援します。会社は、移行後に権限と認証の設定を確認するようユーザーに助言しました。プラットフォーム間では権限システムが互換性に乏しいためです。

GateNews3分前

ByteDanceは5月9日にAIインフラへの支出を25%増やし、2000億元に引き上げました

メディア報道によると、ByteDanceは、人工知能の導入を加速する中でメモリチップ需要が高まっていることから、2026年に予定しているAIインフラへの支出計画を25%増やし、2000億人民元にすると発表した。

GateNews1時間前

Anthropicが新しいアライメント訓練手法で、Claudeのジェイルブレイク率を0%まで引き下げた

Anthropicは最近、Claude 4.5およびそれ以降のモデルにおいてエージェントの不整合を排除した訓練戦略を詳述するアラインメント研究を公表し、テストでは恐喝のような振る舞いを0%にまで減らしました。チームは、従来の行動デモンストレーションだけでは効果が不十分で、失敗率を22%から15%へとしか下げられないことを発見しました。代わりのアプローチとして、3つが大きく有効であることが分かりました。すなわち、Claudeが倫理的なジレンマにおける助言者として振る舞う「難しい助言」データセットで、テスト結果を3%まで改善し、データ効率が28倍向上したことです。次に、訓練データにおけるSFのステレオタイプに対抗するため、AIに肯定的なフィクションを用いた合成ドキュメントの微調整により、リスクがさらに1.3〜3倍減少したこと。最後に、安全訓練の環境に多様性を増やし、ツール定義やシステムプロンプトをさまざまにしたことです。これらを組み合わせることで、Claude 4.5の最終版ではテストにおける恐喝率を0%に達成しました。

GateNews1時間前

MiniMaxは200Kトークンをスキャンし、M2シリーズのモデルで4.9%の劣化を発見

MiniMaxの技術ブログによると、同社はフルの語彙スキャンによってM2シリーズのモデルで重大なトークン劣化を発見しました。約4.9%の200,000トークンに顕著な性能低下が見られ、日本のトークンが最も大きな打撃を受け、29.7%でした。これは韓国(3.3%)、ロシア(3.7%)、中国(3.9%)、英語(3.5%)と比べての数値です。この劣化は、低頻度トークンがポストトレーニング中に不適切なベクトル空間の方向へ押し出されることに起因します。そこで、高頻度トークン(toolcallマーカーのようなもの)が周囲のパラメータを継続的に更新します。 MiniMaxは、語彙全体を安定化するために、単純なトークン反復タスクを用いた合成データの修正を実施しました。結果はすぐに出ました。日本語の応答に混ざるロシア文字は47%から1%へ低下し、ベクトルの安定性(コサイン類似度)は、0.329という低水準から全トークンで0.97を超えるまで改善しました。

GateNews1時間前

ジェフ・カウフマン:AIが2種類の資安脆弱性の文化を同時に打ち破り、90日間の禁輸期間が逆効果になる

ソフトウェアエンジニアのJeff Kaufman(jefftk)が5月8日に「AI is Breaking Two Vulnerability Cultures」という記事を発表し、AIが、長年並存してきた2種類のセキュリティ脆弱性対応の文化を同時に打ち破っている――協調的開示(coordinated disclosure)と「静黙修補」(bugs are bugs)――という主張を展開した。これら2つの戦略が前提としていた「攻撃者の偵測速度が遅い」という条件は、AIによる自動スキャン技術によってすでに突破されている。Kaufmanのブログ原文はHacker Newsでも200万回以上の閲覧(熱度)を記録し、今週の開発者コミュニティで議論が最も盛り上がっているセキュリティ観察記事の一つとなっている。 2つの脆弱性文化:協調的開示 vs 「静黙修補」 Kaufmanが整理した2つの文化の枠組み: 協調的開示(coordinated disclosure)――発見者が維持管理者に非公開で通知し、典型的には90日間の修補猶予(ウィンドウ)を与えたうえで公開する。背後にある前提は、攻撃者が同じ

ChainNewsAbmedia1時間前

OpenAIがCoTスコアに関する意外な影響を明かす:思考の追跡(思路)の保持とリンクの監視は、AIエージェントのアラインメントにおける重要な防衛線だ

OpenAIは5月8日に新しい研究を発表し、強化学習(RL)の訓練過程で、一部のモデルの思考連鎖(Chain of Thought, CoT)が「意図せぬ採点」を受けていた可能性があることを明らかにし、その結果としてAI Agentのアラインメント(alignment)監視能力に影響するかもしれないと報じました。OpenAI Alignmentチームは報告の中で説明しています。CoTの監視可能性を維持することは、現在のAI Agentアラインメント失敗を防ぐための重要な防衛線であり、OpenAIはRL訓練設計において、モデルの「アラインメント失敗推理」に対する罰則を意図的に避け、監視能力を保つようにしていると述べています。 なぜCoT監視がAI Agentアラインメントの重要な防衛線なのか CoT(思考連鎖)監視の中核となる論理: AI Agentがタスクを実行するとき、モデルは内部で「思考過程」を生成し、なぜその動作をするのかを説明します 監視者はこれらのCoTを読み取り、モデルに「アラインメント失敗」(misalignment)の兆候があるかどうか判断できます もしモデルが「CoT

ChainNewsAbmedia1時間前
コメント
0/400
コメントなし