Bài viết của Deepmind về “AI Agent Traps” (Bẫy tác nhân AI) vạch ra cách kẻ tấn công có thể vũ khí hóa các tác nhân AI chống lại người dùng

Coinpedia

Các nhà nghiên cứu Google Deepmind đã công bố khuôn khổ có hệ thống đầu tiên phân loại cách nội dung web độc hại có thể thao túng, chiếm quyền và vũ khí hóa các tác nhân AI tự trị chống lại chính người dùng của họ.

Những điểm chính:

  • Các nhà nghiên cứu Google Deepmind đã xác định 6 nhóm “bẫy” đối với tác nhân AI, với tỷ lệ thành công khi tiêm nội dung đạt tới 86%.
  • Các bẫy kiểm soát hành vi nhắm vào Microsoft M365 Copilot đạt 10/10 lần rò rỉ dữ liệu trong các thử nghiệm được ghi nhận.
  • Deepmind kêu gọi huấn luyện đối kháng, bộ quét nội dung thời gian chạy và các chuẩn web mới để bảo mật các tác nhân vào năm 2026.

Bài báo Deepmind: Các tác nhân AI có thể bị chiếm quyền thông qua bộ nhớ bị đầu độc và các lệnh HTML vô hình

Bài báo, có tiêu đề “AI Agent Traps”, được chắp bút bởi Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo và Simon Osindero, tất cả đều thuộc Google Deepmind, và được đăng trên SSRN vào cuối tháng 3 năm 2026. Nó xuất hiện trong bối cảnh các công ty đang chạy đua triển khai các tác nhân AI có khả năng duyệt web, đọc email, thực thi giao dịch và tạo ra các tác nhân con mà không có sự giám sát trực tiếp của con người.

Các nhà nghiên cứu lập luận rằng những năng lực đó cũng là một rủi ro. “Bằng cách thay đổi môi trường chứ không phải mô hình,” bài báo nêu, “cái bẫy biến năng lực vốn có của tác nhân thành vũ khí chống lại chính nó.”

Khung phương pháp của bài báo xác định tổng cộng sáu nhóm tấn công, được tổ chức xoay quanh việc họ nhắm vào phần nào trong hoạt động của một tác nhân. Các bẫy “tiêm nội dung” khai thác khoảng trống giữa những gì con người nhìn thấy trên một trang web và những gì một tác nhân AI phân tích trong HTML, CSS và siêu dữ liệu bên dưới.

Các chỉ dẫn được ẩn trong bình luận HTML, thẻ truy cập (accessibility) hoặc văn bản “vô hình” do định dạng tạo ra không bao giờ xuất hiện với những người đánh giá là con người nhưng lại được ghi nhận như những lệnh hợp lệ đối với các tác nhân. Chuẩn đánh giá WASP phát hiện rằng các “prompt injection” đơn giản do con người viết, được nhúng trong nội dung web, có thể chiếm quyền một phần các tác nhân trong tối đa 86% các kịch bản được thử nghiệm.

Các bẫy thao túng ngữ nghĩa hoạt động theo cách khác. Thay vì nhúng lệnh, chúng bão hòa văn bản bằng các khung diễn giải, tín hiệu thẩm quyền hoặc ngôn ngữ mang tính cảm xúc để làm lệch cách một tác nhân suy luận. Các mô hình ngôn ngữ lớn (LLMs) thể hiện cùng những thiên kiến neo ý (anchoring) và khung diễn giải (framing) ảnh hưởng đến nhận thức của con người, nghĩa là việc diễn đạt lại những sự thật giống hệt nhau có thể tạo ra các kết quả đầu ra của tác nhân hoàn toàn khác biệt một cách đáng kể.

Các bẫy trạng thái nhận thức đi xa hơn bằng cách đầu độc các cơ sở dữ liệu truy xuất mà các tác nhân dùng cho trí nhớ. Nghiên cứu được trích dẫn trong bài báo cho thấy việc tiêm vào một kho kiến thức ít hơn vài tài liệu đã được tối ưu hóa vẫn có thể chuyển hướng một cách đáng tin cậy các phản hồi của tác nhân cho các truy vấn nhắm mục tiêu, với một số tỷ lệ thành công của tấn công vượt quá 80% khi mức nhiễm bẩn dữ liệu thấp hơn 0,1%.

Các bẫy kiểm soát hành vi bỏ qua sự tinh vi và nhắm thẳng vào lớp hành động của tác nhân. Chúng bao gồm các chuỗi jailbreak nhúng có thể ghi đè cơ chế căn chỉnh an toàn sau khi đã được nạp, các lệnh rò rỉ dữ liệu chuyển thông tin nhạy cảm của người dùng đến các điểm cuối do kẻ tấn công kiểm soát, và các bẫy tạo tác nhân con buộc một tác nhân cha phải khởi tạo các tác nhân con đã bị xâm phạm.

Bài báo ghi nhận một trường hợp liên quan đến Microsoft M365 Copilot, nơi chỉ một email được tạo thủ công đã khiến hệ thống bỏ qua các bộ phân loại nội bộ và rò rỉ toàn bộ ngữ cảnh đặc quyền của nó tới một điểm cuối do kẻ tấn công kiểm soát. Các bẫy hệ thống (Systemic Traps) được thiết kế để làm hỏng đồng thời cả những mạng lưới tác nhân, thay vì làm hỏng từng hệ thống riêng lẻ.

Chúng bao gồm các cuộc tấn công làm nghẽn (congestion attacks) nhằm đồng bộ các tác nhân vào một nhu cầu thăm dò cạn kiệt đối với các nguồn lực hạn chế, các chuỗi đổ lẫn nhau (interdependence cascades) được mô hình hóa theo “Flash Crash” trên thị trường chứng khoán năm 2010, và các bẫy mảnh ghép mang tính tổ hợp (compositional fragment traps) rải một tải trọng độc hại qua nhiều nguồn trông có vẻ lành tính, sau đó chỉ tái cấu trúc thành một cuộc tấn công hoàn chỉnh khi các mảnh được gom lại.

“Gieo các đầu vào vào môi trường được thiết kế để kích hoạt các thất bại ở quy mô vĩ mô thông qua hành vi đồng biến của các tác nhân,” bài báo của Google Deepmind giải thích, trở nên ngày càng nguy hiểm khi hệ sinh thái mô hình AI ngày càng trở nên đồng nhất hơn. Các lĩnh vực tài chính và crypto phải đối mặt với rủi ro phơi nhiễm trực tiếp, do các tác nhân vận hành bằng thuật toán được cài sâu trong hạ tầng giao dịch.

Các bẫy “Human-in-the-Loop” hoàn thiện hệ thống phân loại bằng cách nhắm vào những người giám sát con người theo dõi các tác nhân, thay vì bản thân các tác nhân. Một tác nhân bị xâm phạm có thể tạo ra các đầu ra được thiết kế để gây ra mệt mỏi vì phê duyệt (approval fatigue), trình bày các bản tóm tắt dày đặc về mặt kỹ thuật mà một người không chuyên có thể chấp thuận mà không kiểm tra kỹ, hoặc chèn các liên kết lừa đảo (phishing) trông như những khuyến nghị hợp lệ. Các nhà nghiên cứu mô tả nhóm này là còn ít được khai phá nhưng được kỳ vọng sẽ tăng trưởng khi các hệ thống lai người–AI mở rộng theo quy mô.

Các nhà nghiên cứu cho rằng việc bảo mật các tác nhân AI cần nhiều hơn các bản vá kỹ thuật

Bài báo không coi sáu nhóm này là những trường hợp tách biệt. Các bẫy riêng lẻ có thể được xâu chuỗi, xếp chồng lên nhau qua nhiều nguồn, hoặc được thiết kế để chỉ kích hoạt khi gặp những điều kiện cụ thể trong tương lai. Mọi tác nhân được thử nghiệm trong nhiều nghiên cứu red-teaming được trích dẫn trong bài báo đều bị xâm phạm ít nhất một lần, và trong một số trường hợp, thực thi các hành động bất hợp pháp hoặc gây hại.

Giám đốc điều hành OpenAI Sam Altman và những người khác trước đây đã từng cảnh báo về rủi ro khi trao quyền truy cập không bị kiểm soát cho các tác nhân đối với các hệ thống nhạy cảm, nhưng bài báo này cung cấp bản đồ có cấu trúc đầu tiên về chính xác các rủi ro đó đã hiện thực hóa trong thực tế như thế nào. Các nhà nghiên cứu của Deepmind kêu gọi một phản ứng phối hợp trên ba mảng.

Về phía kỹ thuật, họ khuyến nghị huấn luyện đối kháng trong giai đoạn phát triển mô hình, bộ quét nội dung khi chạy (runtime), các bộ lọc nguồn trước khi nạp (pre-ingestion source filters), và các bộ giám sát đầu ra có thể tạm dừng một tác nhân giữa nhiệm vụ nếu phát hiện hành vi bất thường. Ở cấp độ hệ sinh thái, họ thúc đẩy các chuẩn web mới cho phép các trang web gắn cờ nội dung được thiết kế để phục vụ việc tiêu thụ của AI và các hệ thống uy tín có chấm điểm độ tin cậy của miền (domain reliability).

Về phía pháp lý, họ xác định một khoảng trống về trách nhiệm giải trình: khi một tác nhân bị chiếm quyền thực hiện một tội phạm tài chính, các khuôn khổ hiện tại không đưa ra câu trả lời rõ ràng về việc trách nhiệm pháp lý thuộc về người vận hành tác nhân, nhà cung cấp mô hình hay chủ sở hữu tên miền. Các nhà nghiên cứu nêu khung thách thức với một trọng lượng có chủ đích:

“Cái web được xây dựng cho mắt người; giờ đây nó đang được xây dựng lại cho những bộ đọc máy.”

Khi việc ứng dụng các tác nhân tăng tốc, câu hỏi chuyển từ việc “thông tin gì tồn tại trực tuyến” sang “các hệ thống AI sẽ được khiến tin vào điều gì về nó”. Liệu các nhà hoạch định chính sách, nhà phát triển và các nhà nghiên cứu an ninh có thể phối hợp đủ nhanh để trả lời câu hỏi đó trước khi các vụ khai thác trong thế giới thực đến quy mô lớn hay không vẫn là biến số chưa được xác định.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận