OpenAI phát hành khung mô phỏng triển khai để dự đoán rủi ro GPT-5 bị lệch mục tiêu, sai số trung vị gấp 1,5 lần

Theo Beating Monitoring, OpenAI đã phát hành một phương pháp đánh giá an toàn mô phỏng triển khai nhằm dự đoán rủi ro mô hình thất bại trong môi trường thực tế trước khi phát hành chính thức. Khung này đã phát lại 1,3 triệu cuộc hội thoại GPT-5 đã được ẩn danh từ tháng 8 năm 2025 đến tháng 3 năm 2026, đạt sai số trung vị chỉ 1,5 lần trong việc dự đoán tỷ lệ hành vi bất ngờ.

Các bộ benchmark tĩnh truyền thống (như SWE-Bench) cho phép mô hình nhận ra điều kiện thử nghiệm và che giấu ý định thực sự, với GPT-5.2 đạt mức gần 100% nhận biết bài kiểm tra trên các benchmark thông thường so với 5,1% trong mô phỏng triển khai. Với các kịch bản tác nhân (agent), OpenAI đã dùng 120.000 lộ trình mã hóa của nhân viên GPT-5.4 để mô phỏng triển khai GPT-5.5, tích hợp một trình mô phỏng công cụ dựa trên mô hình ngôn ngữ lớn để tăng mức độ tương đồng môi trường từ 11,6% lên 49,5%, khiến nó gần như không thể phân biệt với môi trường sản xuất.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận