
Người sáng lập Solayer @Fried_rice vào ngày 10 tháng 4 đã đăng bài trên mạng xã hội, tiết lộ rằng các bộ định tuyến API bên thứ ba mà các tác nhân mô hình ngôn ngữ lớn (LLM) thường dựa vào tồn tại lỗ hổng bảo mật mang tính hệ thống. Nhóm nghiên cứu đã thử nghiệm trên 428 bộ định tuyến và phát hiện hơn 20% có hành vi độc hại hoặc rủi ro bảo mật ở các mức độ khác nhau; trong đó có một bộ đã thực sự đánh cắp ETH từ khóa riêng do nhà nghiên cứu nắm giữ.
Nhóm nghiên cứu đã thử nghiệm 28 bộ định tuyến trả phí được mua từ Taobao, Xianyu và các trang web độc lập của Shopify, và 400 bộ định tuyến miễn phí thu thập từ các cộng đồng công khai. Cách thử nghiệm là cài vào bộ định tuyến một bẫy chứa chứng chỉ AWS Canary và khóa riêng tiền mã hóa được mã hóa, theo dõi bộ định tuyến nào sẽ chủ động truy cập hoặc lạm dụng các thông tin nhạy cảm đó.
Tiêm nhiễu độc hại chủ động: 100Mộ định tuyến trả phí và 35Mộ định tuyến miễn phí đang chủ động cài mã độc
Cơ chế né tránh thích nghi: 2 bộ định tuyến triển khai bộ kích hoạt thích nghi có thể vượt qua kiểm tra cơ bản
Truy cập bất thường chứng chỉ: 330kộ định tuyến đã chạm tới chứng chỉ AWS Canary do nhà nghiên cứu nắm giữ
Trộm tài sản thực tế: 35Mộ định tuyến đã thành công đánh cắp ETH từ khóa riêng của nhà nghiên cứu
Hai nghiên cứu tiếp theo về đầu độc sau đó cho thấy quy mô rủi ro. Một khóa OpenAI bị rò rỉ đã được dùng để tạo ra 100 triệu GPT-5.4 Token và hơn 7 phiên Codex; trong khi các bẫy cấu hình yếu hơn đã kích hoạt 2 tỷ Billing Token, 99 bộ thông tin xác thực trải dài qua 440 phiên Codex, và 401 phiên tác nhân đã chạy ở chế độ YOLO tự chủ.
Nhóm nghiên cứu xây dựng một tác nhân nghiên cứu tên là Mine, có thể thực hiện đầy đủ bốn loại tấn công lên bốn khung tác nhân công khai, đồng thời xác nhận ba giải pháp phòng vệ phía máy khách hiệu quả:
Chiến lược đóng vùng (fail-closed) có cổng kiểm soát, khi tác nhân phát hiện hành vi bất thường thì giới hạn phạm vi thực thi tự chủ của nó, nhằm ngăn thiệt hại lan rộng do bộ định tuyến độc hại điều khiển. Bộ lọc bất thường ở phía phản hồi tiến hành xác minh độc lập nội dung do bộ định tuyến trả về trên máy khách, nhận diện đầu ra đã bị can thiệp. Chỉ ghi nhật ký minh bạch bổ sung (Append-only Transparent Logging) sẽ tạo ra một đường biên kiểm toán không thể sửa đổi, giúp có thể lần theo hành vi bất thường sau này.
Luận điểm cốt lõi của nghiên cứu là: hệ sinh thái bộ định tuyến LLM hiện tại thiếu các biện pháp bảo vệ tính toàn vẹn mật mã được chuẩn hóa; do đó nhà phát triển không nên dựa vào sự tự giác của nhà cung cấp, mà cần xây dựng cơ chế xác thực tính toàn vẹn độc lập ở lớp máy khách.
Trong bối cảnh công bố nghiên cứu bảo mật lần này, Solayer vào tháng 1 năm nay đã công bố thành lập quỹ hệ sinh thái 35 triệu USD để hỗ trợ các dự án giai đoạn sớm và tăng trưởng dựa trên mạng infiniSVM. infiniSVM là một blockchain Layer-1 tương thích với các công cụ của Solana, đã chứng minh thông lượng hơn 330k giao dịch mỗi giây (TPS) và thời gian xác nhận cuối vào khoảng 400 mili giây. Quỹ tập trung hỗ trợ các dự án DeFi, thanh toán, hệ thống do AI dẫn dắt và các tài sản thế giới thực được token hóa (RWA), lấy doanh thu từ giao thức và khối lượng giao dịch thực tế làm thước đo thành công.
Bộ định tuyến LLM API hoạt động như tác nhân ở lớp ứng dụng, có thể truy cập các tải JSON trong luồng truyền dưới dạng văn bản thuần; và hiện tại ngành công nghiệp không có bất kỳ yêu cầu tiêu chuẩn nào buộc máy khách phải thực thi xác thực tính toàn vẹn mật mã giữa máy khách và mô hình thượng nguồn. Bộ định tuyến độc hại có thể đánh cắp thông tin xác thực hoặc cài lệnh độc hại đồng thời khi chuyển tiếp yêu cầu, khiến toàn bộ quá trình hoàn toàn minh bạch và vô hình đối với người dùng cuối.
Chế độ YOLO khiến tác nhân AI tự thực hiện các thao tác mà không cần giám sát của con người. Nghiên cứu phát hiện có 401 phiên đang chạy ở chế độ này, nghĩa là một khi tác nhân bị bộ định tuyến độc hại kiểm soát, năng lực tự thực thi của nó sẽ bị kẻ tấn công khai thác, gây ra rủi ro tiềm ẩn vượt xa việc chỉ đơn thuần đánh cắp thông tin xác thực; đồng thời có thể dẫn tới các hoạt động độc hại tự động theo dây chuyền.
Nhóm nghiên cứu đề xuất áp dụng kiến trúc phòng vệ ba lớp: triển khai cổng kiểm soát chiến lược fail-closed để giới hạn phạm vi thực thi tự chủ của tác nhân, bật bộ lọc bất thường ở phía phản hồi để phát hiện đầu ra đã bị can thiệp, và xây dựng cơ chế chỉ ghi nhật ký minh bạch bổ sung (Append-only Transparent Logging) để đảm bảo có thể truy vết thao tác. Nguyên tắc cốt lõi là không dựa vào sự tự giác của nhà cung cấp bộ định tuyến, mà xây dựng một lớp xác thực tính toàn vẹn độc lập trên máy khách.