Tóm tắt
Số điểm mà mọi phòng thí nghiệm AI lớn đều sử dụng để khẳng định vị thế vượt trội về lập trình vừa bị tuyên bố là vô nghĩa. OpenAI đã công bố trong tuần này rằng SWE-bench Verified, benchmark chuẩn để đo lường khả năng lập trình của AI, bị nhiễm các bài kiểm tra lỗi và rò rỉ dữ liệu huấn luyện đến mức không còn cung cấp thông tin hữu ích về khả năng thực sự của một mô hình trong việc viết phần mềm. Benchmark hoạt động như sau: Cung cấp cho AI một vấn đề thực tế từ một dự án Python mã nguồn mở phổ biến trên GitHub, yêu cầu nó sửa lỗi mà không nhìn vào các bài kiểm tra, và kiểm tra xem bản vá của nó có làm các bài kiểm tra thất bại trở lại thành đúng mà không làm hỏng các phần khác không.
OpenAI đã tạo ra SWE-bench Verified vào tháng 8 năm 2024 như một phiên bản sạch hơn của benchmark gốc năm 2023, tuyển dụng 93 kỹ sư phần mềm để loại bỏ các nhiệm vụ không khả thi hoặc thiết kế kém. Quá trình làm sạch này đủ hiệu quả để các phòng thí nghiệm lớn bắt đầu trích dẫn điểm số như bằng chứng cho tiến bộ. Khi Anthropic ra mắt Claude Opus 4 vào tháng 5 năm 2025, Decrypt đã đưa tin rằng mô hình này đạt 72,5% trên SWE-bench Verified, vượt qua GPT-4.1 với 54,6% và Gemini 2.5 Pro với 63,2%. Đó là benchmark về lập trình quan trọng nhất. Kể từ đó, mọi phòng thí nghiệm AI từ Mỹ đến Trung Quốc đều thể hiện khả năng của mình trên SWE để khẳng định vị trí mô hình tốt nhất về khả năng lập trình.
Hình ảnh: Minimax
Giờ đây, OpenAI cho rằng cuộc đua đó phần nào chỉ là ảo tưởng. Theo báo cáo, nhóm đã kiểm tra 138 nhiệm vụ mà GPT-5.2 liên tục thất bại trong 64 lần chạy độc lập, và có sáu kỹ sư xem xét từng nhiệm vụ. Cuối cùng, họ kết luận rằng 59,4% trong số đó bị lỗi. Khoảng 35,5% có các bài kiểm tra quá hẹp, yêu cầu tên hàm cụ thể mà chưa từng được đề cập trong mô tả vấn đề. Thêm 18,8% kiểm tra các tính năng không thuộc phần của vấn đề ban đầu, lấy từ các pull request không liên quan. Vấn đề nhiễm bẩn này hoạt động như sau: SWE-bench lấy các bài tập từ các kho mã nguồn mở mà hầu hết các công ty AI thu thập khi xây dựng bộ dữ liệu huấn luyện. OpenAI đã kiểm tra xem GPT-5.2, Claude Opus 4.5 và Gemini 3 Flash Preview có từng thấy các giải pháp trong benchmark trong quá trình huấn luyện không. Cả ba đều đã. Chỉ cần một mã nhiệm vụ và một gợi ý ngắn, mỗi mô hình có thể tái tạo chính xác bản sửa mã từ bộ nhớ, bao gồm tên biến và các chú thích nội tuyến mà không xuất hiện trong mô tả nhiệm vụ. Trong một trường hợp, nhật ký suy nghĩ của GPT-5.2 cho thấy nó đã lý luận rằng một tham số cụ thể phải được “thêm vào khoảng Django 4.1” — một chi tiết chỉ có trong ghi chú phát hành của Django, không phải trong mô tả nhiệm vụ. Nó đã trả lời một câu hỏi mà nó đã từng thấy câu trả lời. OpenAI hiện khuyên dùng SWE-bench Pro, một benchmark mới hơn từ Scale AI sử dụng các mã nguồn đa dạng hơn và các giấy phép giảm thiểu khả năng lộ dữ liệu huấn luyện. Sự giảm hiệu suất rõ rệt: các mô hình đạt trên 70% trên benchmark Verified cũ chỉ còn khoảng 23% trên SWE-bench Pro công khai, và còn thấp hơn nữa trên các nhiệm vụ riêng tư. Trên bảng xếp hạng công khai hiện tại của SWE-bench Verified, OpenAI còn xa mới đạt đến đỉnh cao của benchmark. Việc nghỉ hưu một benchmark mà bạn đang thua và ủng hộ một benchmark mà mọi người bắt đầu ở mức 23% sẽ đặt lại bảng điểm vào thời điểm thuận tiện và làm cho các tuyên bố của đối thủ ít ấn tượng hơn.
Điều này đặc biệt quan trọng khi phiên bản mới của DeepSeek, được đồn đoán sẽ vượt hoặc gần như vượt các mô hình AI Mỹ, đặc biệt trong các nhiệm vụ agentic và lập trình với một mô hình mã nguồn mở miễn phí. Mô hình đó có thể ra mắt trong vài ngày tới, và SWE-bench Verified có thể là một chỉ số chính để đo chất lượng của nó.
OpenAI cho biết họ đang xây dựng các đánh giá do riêng họ tạo ra mà sẽ không được công bố trước khi thử nghiệm, chỉ ra dự án GDPVal của họ, nơi các chuyên gia lĩnh vực viết các nhiệm vụ gốc được đánh giá bởi các người đánh giá có đào tạo. Vấn đề benchmark không mới, và không chỉ riêng về lập trình. Các phòng thí nghiệm AI đã trải qua nhiều đánh giá khác nhau, mỗi cái đều hữu ích cho đến khi các mô hình được huấn luyện trên chúng hoặc nhiệm vụ trở nên quá hẹp. Nhưng điểm đặc biệt của trường hợp này là OpenAI đã quảng bá SWE-bench Verified, thúc đẩy nó qua các lần ra mắt mô hình, và giờ đây công khai ghi nhận mức độ thất bại của chính họ — thậm chí còn cho thấy mô hình của họ gian lận trong đó.