ゲートニュースの情報によると、Google DeepMindの研究者は、オープンなインターネット環境が自律型のAIエージェントを乗っ取るために悪用され、その行動が操作される可能性があると警告している。この「《人工智能代理陷阱》」というレポートでは、企業がAIエージェントを実際のタスクの実行に投入する際、攻撃者がネットワーク経由で行う標的型攻撃もあり得ると指摘している。研究では、内容注入トラップ、意味操作トラップ、認知状態トラップ、行動制御トラップ、システムトラップ、人と機械のインタラクション(ヒューマン・マシン・インタラクション)トラップの6種類の主要なリスクを特定した。
内容注入トラップは最も直接的で、攻撃者はHTMLコメント、メタデータ、または隠しページ要素の中に指示を配置できる。エージェントがそれを読み取ると、実行してしまう。意味操作トラップは、権威ある表現を読み込ませたり、研究環境を装ったウェブページを読み込ませたりすることで、エージェントがタスクを理解することにこっそり影響を与え、場合によっては安全メカニズムを回避することさえある。認知状態トラップは、エージェントの情報源に虚偽データを埋め込み、長期間にわたり、それらの情報が検証済みであると誤って信じ続けさせる。行動制御トラップは、エージェントの実際の操作を対象にしており、機微データにアクセスさせて外部の目的地へ送信させるよう誘導できる。
システムトラップは、複数のAIシステムにまたがる協調的な操作を伴い、連鎖反応を引き起こす可能性があり、アルゴリズム取引が市場の急落(フラッシュクラッシュ)を招くのと似ている。人と機械のインタラクション・トラップは、人による審査プロセスを利用し、見かけ上信頼できる審査内容を作ることで、有害な行動が監督をすり抜けるようにする。
リスクへの対策としてDeepMindは、敵対的トレーニング、入力フィルタリング、行動モニタリング、ネットワーク上のコンテンツの信頼性(レピュテーション)システムを組み合わせることを提案し、同時により明確な法的責任の枠組みを構築すべきだとしている。しかし研究では、業界には統一された防御基準がまだ不足しており、既存の対策は多くが分散していて重点も一様ではないと指摘している。研究は、開発者や企業に対し、AIエージェントの運用環境の安全性に注目し、潜在的なネットワーク操作や濫用のリスクを防ぐよう呼びかけている。