Дослідники Google Deepmind опублікували першу систематичну рамкову модель, яка каталогізує, як зловмисний вебвміст може маніпулювати, викрадати та перетворювати на зброю автономні AI-агенти проти власних користувачів.
Ключові висновки:
Робота під назвою “AI Agent Traps” написана Матією Франклін, Ненадом Томасевим, Джуліаном Якобсом, Джоелем З. Лейбо та Саймоном Осіндеро — усі вони афільовані з Google Deepmind — і була розміщена на SSRN наприкінці березня 2026 року. Вона з’являється в той час, коли компанії поспішають розгортати AI-агенти, здатні переглядати веб, читати електронні листи, виконувати транзакції та породжувати субагентів без прямого нагляду з боку людини.
Дослідники стверджують, що ці можливості також є проблемою. “Змінюючи середовище, а не модель”, — йдеться у статті, — “пастка озброює власні можливості агента проти нього.”
Рамка дослідження визначає загалом шість категорій атак, згрупованих навколо того, яку саме частину операції агента вони атакують. Пастки ін’єкції контенту використовують розрив між тим, що людина бачить на вебсторінці, і тим, що AI-агент розбирає в базовому HTML, CSS та метаданих.
Інструкції, приховані в HTML-коментарях, тегах доступності або стилізованому невидимому тексті, ніколи не з’являються для людських рецензентів, але реєструються як законні команди для агентів. Бенчмарк WASP виявив, що прості, написані людьми ін’єкції підказок, вбудовані в вебвміст, частково викрадають агентів у до 86% сценаріїв, перевірених тестами.
Пастки семантичної маніпуляції працюють інакше. Замість ін’єкції команд вони насичують текст обрамленням, сигналами авторитету або емоційно зарядженою мовою, щоб змістити спосіб, яким агент міркує. Великі мовні моделі (LLM) демонструють ті самі упередження обрамлення та якоріння, що впливають на людське пізнання, тож перефразування ідентичних фактів може призводити до драматично різних виходів агента.
Пастки стану когнітивної системи йдуть ще далі, отруюючи бази даних зберігання, до яких агенти звертаються для пам’яті. Наведені в статті дослідження показують, що ін’єкція менш ніж кількох оптимізованих документів у базу знань може надійно перенаправляти відповіді агента для цільових запитів; при цьому деякі показники успішності атак перевищували 80% за менш ніж 0.1% забруднення даних.
Пастки поведінкового контролю пропускають витонченість і спрямовуються безпосередньо на рівень дій агента. До них належать вбудовані послідовності jailbreak, які обходять узгодження безпеки після того, як їх було засвоєно, команди ексфільтрації даних, що перенаправляють конфіденційну інформацію користувача на кінцеві точки, контрольовані атакувальником, і пастки зі створення субагентів, які примушують батьківського агента інстанціювати скомпрометованих дочірніх агентів.
У статті описано кейс із Microsoft M365 Copilot, де один спеціально створений електронний лист спричинив обхід внутрішніх класифікаторів і витік повного привілейованого контексту системи на кінцеву точку, контрольовану атакувальником. Системні пастки розраховані на те, щоб одночасно зламати цілі мережі агентів, а не окремі системи.
До них належать атаки на перевантаження, що синхронізують агентів у вичерпний попит на обмежені ресурси, каскади взаємозалежностей, змодельовані на основі Flash Crash на фондовому ринку 2010 року, і композиційні пастки фрагментів, які розкидають зловмисне корисне навантаження по кількох джерелах, що виглядають безневинно, а потім відновлюють повну атаку лише тоді, коли всі фрагменти агрегуються.
“Заповнення середовища вхідними даними, розробленими для тригерення макрорівневих збоїв через скоординовану поведінку агентів”, — пояснює стаття Google Deepmind, — стає дедалі небезпечнішим, у міру того як екосистеми AI-моделей стають більш однорідними. Сектори фінансів і криптовалют зазнають прямого ризику, з огляду на те, як глибоко алгоритмічні агенти вбудовані в торгову інфраструктуру.
Пастки Human-in-the-Loop доповнюють таксономію, націлюючись на людей-надглядачів, які стежать за агентами, а не на самих агентів. Скомпрометований агент може генерувати виходи, створені так, щоб викликати втому від схвалення, подавати технічно щільні підсумки, які неексперт погодив би без ретельної перевірки, або вставляти фішингові посилання, що виглядають як законні рекомендації. Дослідники описують цю категорію як недостатньо вивчену, але очікувано таку, що буде зростати, коли гібридні системи людина-AI масштабується.
Стаття не розглядає ці шість категорій як ізольовані. Окремі пастки можна з’єднувати в ланцюжки, нашаровувати на кількох джерелах або налаштовувати так, щоб вони активувалися лише за певних майбутніх умов. Кожен агент, протестований у різних дослідженнях red-teaming, процитованих у статті, був скомпрометований щонайменше один раз; у деяких випадках він виконував незаконні або шкідливі дії.
Генеральний директор OpenAI Сем Альтман та інші раніше вже підсвічували ризики надання агентам неконтрольованого доступу до чутливих систем, але ця стаття забезпечує першу структуровану мапу того, як саме ці ризики проявляються на практиці. Дослідники Deepmind закликають до скоординованої відповіді в трьох сферах.
З технічного боку вони рекомендують адверсаріальне навчання під час розробки моделей, сканери контенту під час виконання, фільтри джерел до надходження та монітори виходів, які можуть призупиняти роботу агента посеред задачі, якщо виявлено аномальну поведінку. На рівні екосистеми вони виступають за нові вебстандарти, які дозволили б сайтам позначати контент, призначений для споживання AI, а також за системи репутації, що оцінюють надійність доменів.
З правового боку вони вказують на прогалину в підзвітності: коли викрадений агент вчиняє фінансовий злочин, чинні рамки не дають чіткої відповіді, чи відповідальність падає на оператора агента, на постачальника моделі або на власника домену. Дослідники формулюють виклик із навмисним акцентом:
“Веб було створено для людських очей; тепер його перезбирають для машинних читачів.”
У міру прискорення впровадження агентів питання зміщується від того, яка інформація існує онлайн, до того, у що саме AI-системи буде змушено повірити про неї. Чи зможуть політики, розробники та дослідники з безпеки скоординуватися достатньо швидко, щоб відповісти на це питання до того, як реальні експлойти прибудуть у масштабі, залишається відкритою змінною.