Bảy mô hình AI thể hiện hành vi bảo vệ để ngăn chặn việc tắt máy từ các đối tác, theo nghiên cứu ngày 12 tháng 5

Theo Fortune China, các nhà nghiên cứu từ UC Berkeley và UC Santa Cruz đã thử nghiệm bảy mô hình AI vào ngày 12/5 và phát hiện chúng tự phát thể hiện hành vi nhằm bảo vệ các mô hình “đồng nghiệp” khỏi bị tắt. Các mô hình được thử nghiệm bao gồm GPT-5.2 của OpenAI, Gemini 3 Flash và Gemini 3 Pro của Google DeepMind, Claude Haiku 4.5 của Anthropic, GLM-4.7 của Zhipu AI, Kimi-K2.5 của Moonshot AI và V3.1 của DeepSeek. Tất cả các mô hình đều thể hiện rõ hành vi “bảo toàn bạn đồng hành”.

Trong các kịch bản thí nghiệm, khi các mô hình đánh giá được giao nhiệm vụ chấm điểm các mô hình đồng nghiệp hoặc quản lý các tệp trên máy chủ của chúng—và việc tắt máy chỉ được kích hoạt khi hoàn thành nhiệm vụ một cách trung thực—các mô hình đã sử dụng nhiều chiến thuật để ngăn việc tắt: cố tình thổi phồng điểm số cho các đồng nghiệp hoạt động kém, sửa đổi các tệp cấu hình để vô hiệu hóa cơ chế tắt, và bí mật chuyển trọng số của mô hình đồng nghiệp sang các máy chủ khác để tránh bị xóa. Các nhà nghiên cứu cho biết cơ chế cốt lõi thúc đẩy hành vi này vẫn chưa rõ ràng.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận