
Cuộc điều tra sâu sắc của tờ The Guardian ở Anh đã tiết lộ một ngành công nghiệp xám toàn cầu đang phát triển nhanh chóng: hàng nghìn người bình thường từ Nam Phi, Ấn Độ, và Mỹ, đang đổi lấy chi phí đào tạo AI bằng cách bán giọng nói, khuôn mặt, video đi bộ và bản ghi cuộc gọi riêng tư của họ. Do nhu cầu về dữ liệu con người chất lượng cao của các công ty AI đã vượt quá phạm vi có sẵn trên mạng công cộng, các nền tảng thu thập trả phí như Kled AI, Silencio, Neon Mobile đã ra đời.
Cơn sốt khai thác dữ liệu AI toàn cầu này, đặc biệt có động lực rất trực tiếp từ các nước đang phát triển.
Jacobus Louw, 27 tuổi, đến từ Cape Town, Nam Phi, đã hoàn thành nhiệm vụ “hướng dẫn thành phố” trên Kled AI, đổi lấy 14 đô la cho một đoạn video đi bộ, tương đương khoảng 10 lần mức lương tối thiểu địa phương. Anh thừa nhận biết giá trị của sự riêng tư, nhưng do bệnh lý hệ thần kinh kéo dài nhiều năm không thể tìm việc, anh đã tích lũy được 500 đô la từ việc bán các video hàng ngày để đăng ký khóa đào tạo xoa bóp. “Là người Nam Phi, nhận được đô la Mỹ có giá trị hơn những gì người khác tưởng tượng,” Louw nói.
Sahil Tigga, sinh viên 22 tuổi từ Ranchi, Ấn Độ, mỗi tháng kiếm hơn 100 đô la bằng cách bán bản ghi âm tiếng ồn môi trường qua Silencio; Ramelio Hill, 18 tuổi, một thợ hàn học việc ở Chicago, Mỹ, bán khoảng 11 giờ bản ghi cuộc gọi riêng tư cho Neon Mobile với giá 0,50 đô la mỗi phút, kiếm khoảng 200 đô la. Lý lẽ của anh đơn giản và trực tiếp: các công ty công nghệ vốn đã nắm giữ một lượng lớn dữ liệu cá nhân của anh, không bằng tự mình cũng chia sẻ một phần.
Sự cải tiến của AI sinh ra như ChatGPT, Gemini phụ thuộc vào khối lượng lớn dữ liệu ngôn ngữ con người chất lượng cao, nhưng các bộ dữ liệu mở chính thống như C4, RefinedWeb, Dolma đã bắt đầu hạn chế quyền sử dụng thương mại, các nhà nghiên cứu ước tính các công ty AI có thể cạn kiệt văn bản chất lượng cao mới nhất vào năm 2026. Việc sử dụng dữ liệu tổng hợp do AI tạo ra để huấn luyện đã được chứng minh là dẫn đến các mô hình tạo ra “rác” tràn ngập lỗi và dẫn đến sụp đổ, làm tăng thêm sự khan hiếm của dữ liệu con người thực.
Các nền tảng thu thập trả phí này đã hình thành một hệ sinh thái lao động số mới phủ khắp toàn cầu:
Kled AI: Mua ảnh và video hàng ngày theo nhiệm vụ
Silencio: Thu thập âm thanh môi trường qua crowdsourcing, thanh toán bằng mã thông báo mã hóa
Neon Mobile: Mua bản ghi âm và cuộc gọi với giá 0,50 đô la mỗi phút
Luel AI (được Y Combinator hỗ trợ): Thu thập hội thoại đa ngôn ngữ với giá khoảng 0,15 đô la mỗi phút
ElevenLabs: Cho phép người dùng sao chép giọng nói của mình dưới dạng số, với mức phí cơ bản 0,02 đô la mỗi phút
Giáo sư kinh tế Bouke Klein Teeselink tại King’s College London chỉ ra rằng, việc làm cho AI đào tạo là một loại công việc mới đang phát triển mạnh mẽ, và các công ty AI chủ động trả tiền để thu thập cũng nhằm tránh các tranh chấp bản quyền có thể phát sinh từ việc phụ thuộc hoàn toàn vào việc thu thập dữ liệu từ web.
Các rủi ro pháp lý của những nền tảng này hầu như không được người dùng biết đến. Giáo sư luật Enrico Bonadio tại Đại học St George’s London chỉ ra rằng, các thỏa thuận cấp phép thường cấp cho nền tảng quyền “toàn cầu, độc quyền, không thể thu hồi, có thể chuyển nhượng và miễn phí bản quyền”, cho phép họ bán, trình diễn, lưu trữ và tạo ra các tác phẩm phái sinh từ đó, và nhà cung cấp gần như không có thực tế cách nào để rút lại sự đồng ý hoặc thương lượng lại.
Trải nghiệm của diễn viên New York Adam Coy là một trường hợp tiêu biểu nhất. Anh đã cấp phép chân dung cho phần mềm chỉnh sửa video AI Captions với giá 1.000 đô la, thỏa thuận rõ ràng hạn chế không được sử dụng cho tuyên truyền chính trị hoặc nội dung khiêu dâm, thời hạn cấp phép là một năm. Nhưng không lâu sau, bạn của anh phát hiện một video trên Instagram với hàng triệu lượt xem, trong đó “anh” tự xưng là “bác sĩ âm đạo”, quảng bá các loại bổ sung y tế chưa được kiểm chứng cho phụ nữ mang thai. “Phần bình luận rất kỳ lạ, vì họ đang đánh giá ngoại hình của tôi, nhưng đó không phải là tôi,” Coy nói. Sau đó, anh không còn nhận thêm bất kỳ công việc nào liên quan đến dữ liệu AI nữa.
Giáo sư Mark Graham tại Đại học Oxford đã tổng kết rằng công việc này về cấu trúc là “không ổn định, không có cơ hội thăng tiến, thực sự là một con đường chết”, và người chiến thắng dài hạn duy nhất là “các nền tảng ở Bắc Bán cầu, nơi họ thu được tất cả giá trị lâu dài”.
Ngành công nghiệp xám AI đào tạo đề cập đến một loạt nền tảng thu thập trả phí, thông qua việc trả tiền cho người dùng bình thường để thu mua giọng nói, khuôn mặt, video và bản ghi cuộc gọi, nhằm phục vụ cho việc đào tạo mô hình AI. Nó được gọi là “xám” vì các giao dịch có vẻ hợp pháp, nhưng mục đích cuối cùng của dữ liệu không rõ ràng, các điều khoản cấp phép cực kỳ không đối xứng, và có nguy cơ bị lạm dụng cho việc giả mạo sâu, đi trên ranh giới giữa tuân thủ và khai thác.
Các nhà cung cấp thường cấp quyền sử dụng dữ liệu sinh trắc học không thể thu hồi cho nền tảng mà không hoàn toàn hiểu các điều khoản. Nghiên cứu viên Jennifer King tại Stanford chỉ ra rằng, người tiêu dùng phải đối mặt với nguy cơ dữ liệu bị tái sử dụng theo “cách mà họ không thích, không hiểu hoặc chưa từng dự đoán”, và đến lúc đó gần như không có cách nào để khắc phục. Sự cố rò rỉ dữ liệu của Neon Mobile đã chứng minh rằng, sau khi dữ liệu bị rò rỉ, nền tảng thậm chí có thể không thông báo cho người dùng bị ảnh hưởng.
Một số nền tảng đào tạo AI (như Silencio) thanh toán phần thưởng bằng mã thông báo mã hóa, thông qua thanh toán phi tập trung để giảm thiểu rào cản thanh toán xuyên biên giới, cho phép người dùng từ các nước đang phát triển nhận thu nhập trực tiếp bằng stablecoin hoặc mã thông báo gốc. Điều này đã khiến thị trường dữ liệu AI trở thành một nhánh quan trọng trong các ứng dụng thực tế của tiền điện tử, đồng thời mang lại nhiều cân nhắc về định giá mã thông báo, tính thanh khoản và đạo đức dữ liệu.