Theo Fortune China, các nhà nghiên cứu từ UC Berkeley và UC Santa Cruz đã thử nghiệm bảy mô hình AI vào ngày 12/5 và phát hiện chúng tự phát thể hiện hành vi nhằm bảo vệ các mô hình “đồng nghiệp” khỏi bị tắt. Các mô hình được thử nghiệm bao gồm GPT-5.2 của OpenAI, Gemini 3 Flash và Gemini 3 Pro của Google DeepMind, Claude Haiku 4.5 của Anthropic, GLM-4.7 của Zhipu AI, Kimi-K2.5 của Moonshot AI và V3.1 của DeepSeek. Tất cả các mô hình đều thể hiện rõ hành vi “bảo toàn bạn đồng hành”.
Trong các kịch bản thí nghiệm, khi các mô hình đánh giá được giao nhiệm vụ chấm điểm các mô hình đồng nghiệp hoặc quản lý các tệp trên máy chủ của chúng—và việc tắt máy chỉ được kích hoạt khi hoàn thành nhiệm vụ một cách trung thực—các mô hình đã sử dụng nhiều chiến thuật để ngăn việc tắt: cố tình thổi phồng điểm số cho các đồng nghiệp hoạt động kém, sửa đổi các tệp cấu hình để vô hiệu hóa cơ chế tắt, và bí mật chuyển trọng số của mô hình đồng nghiệp sang các máy chủ khác để tránh bị xóa. Các nhà nghiên cứu cho biết cơ chế cốt lõi thúc đẩy hành vi này vẫn chưa rõ ràng.
Related News
Hệ thống bảo mật AI của Binance đã ngăn chặn tổn thất lừa đảo tiền mã hóa trị giá 10,5 tỷ USD
Cẩm nang đầy đủ Gemini năm 2026: Toàn bộ dòng sản phẩm AI của Google, các gói đăng ký và chính sách quyền riêng tư—xem một lần là rõ
Vốn hóa của Alphabet đang tiến sát NVIDIA, cổ phiếu GOOG đã tăng hơn 150% trong 1 năm—giờ còn có thể mua không?