Paolo Ardoino của Tether đưa ra lý lẽ cho các mô hình dịch nhỏ gọn trên thiết bị

CEO của Tether, Paolo Ardoino, đã tập trung vào một góc rất khác của trí tuệ nhân tạo: dịch thuật diễn ra hoàn toàn trên thiết bị, không gửi văn bản nhạy cảm lên đám mây.

Trong một bài đăng gần đây, Ardoino đã đặt vấn đề về quyền riêng tư, tốc độ và tính thực tiễn. Ý của ông khá đơn giản, nhưng nó chạm đến một vấn đề mà hàng triệu người dùng gặp phải hàng ngày. Khi ai đó dịch một ghi chú y tế, một tin nhắn riêng tư, một hợp đồng pháp lý hoặc thậm chí một nhật ký cá nhân qua dịch vụ đám mây, văn bản đó rời khỏi thiết bị và đi vào hạ tầng của người khác.

Trong nhiều trường hợp, người dùng không hoàn toàn biết dữ liệu đó đi đâu, dữ liệu được giữ trong bao lâu hoặc ai có thể truy cập vào đó. Ardoino lập luận rằng đây không chỉ là một mối quan tâm lý thuyết, mà là một mối quan tâm thực sự, đặc biệt trong các trường hợp sử dụng mà tính bảo mật là quan trọng.

Theo Ardoino, câu trả lời không phải là dựa vào các mô hình AI tổng quát ngày càng lớn hơn nữa. Thay vào đó, ông cho rằng dịch thuật là một trong những công việc mà các mô hình nhỏ, chuyên dụng có thể vượt qua “Goliath.”

Theo quan điểm của ông, nếu nhiệm vụ là dịch một ngôn ngữ sang ngôn ngữ khác, không cần phải sử dụng một mô hình khổng lồ có thể viết thơ, tóm tắt bài viết và thực hiện hàng tá nhiệm vụ không liên quan. Đối với dịch thuật, một mô hình chuyên biệt được xây dựng cho một mục đích có thể nhỏ hơn, nhanh hơn và đáng tin cậy hơn.

Vượt trội hơn Các Mô hình LLM Lớn Hơn

Ardoino chỉ ra giới hạn của các mô hình ngôn ngữ tổng quát trên các thiết bị cục bộ như điện thoại và laptop. Ngay cả các mô hình nhỏ hơn cũng có thể tiêu thụ dung lượng lưu trữ đáng kể, mất nhiều thời gian để tải và vẫn hoạt động quá chậm để mang lại trải nghiệm mượt mà cho người dùng.

Ngược lại, các mô hình dịch máy neural chuyên dụng có thể nhẹ hơn đáng kể, thường chỉ vài chục megabyte, trong khi tải trong mili giây và tạo ra bản dịch nhanh hơn nhiều. Trong lời kể của Ardoino, sự khác biệt này không chỉ là trivia kỹ thuật. Nó thay đổi những gì có thể dành cho người dùng thực trên các thiết bị thực.

Lập luận ưu tiên quyền riêng tư nằm ở trung tâm của phương pháp được thúc đẩy qua dự án QVAC, mà ông đã đề cập trong bài đăng. Ý tưởng là làm cho dịch thuật hoàn toàn cục bộ, để toàn bộ quá trình diễn ra trên điện thoại, laptop hoặc phần cứng nhúng của người dùng. Không cần yêu cầu đám mây.

Không có bên thứ ba nào cần xem văn bản. Đối với người dùng và nhà phát triển quan tâm đến tuân thủ, điều đó cũng có thể có nghĩa là ít rắc rối về xử lý dữ liệu hơn, ít lo ngại về chuyển giao xuyên biên giới hơn và ít câu hỏi về an ninh hơn. Ardoino cũng trình bày cách nhóm đã đi đến hướng đi này.

Các nỗ lực dịch thuật trước đó của họ dựa trên các mô hình Opus-MT, hoạt động tốt nhưng lớn hơn và chậm hơn mong muốn cho mục đích di động. Vấn đề về phạm vi cũng là một vấn đề. Nếu cặp ngôn ngữ chưa có sẵn, huấn luyện một mô hình mới sẽ đòi hỏi nhiều công sức bổ sung đáng kể.

Chuyển sang Bergamot, mà ông mô tả là nhỏ hơn, nhanh hơn và có phạm vi rộng hơn, dường như đã giải quyết nhiều vấn đề đó. Bài đăng cũng làm rõ rằng QVAC không giới hạn chỉ một loại engine dịch thuật. Trong khi các mô hình NMT chuyên dụng là mục tiêu dài hạn, hệ thống cũng có thể hỗ trợ dịch dựa trên LLM trong thời gian tới.

Chiến lược cầu nối thực tế

Ardoino mô tả đó như một chiến lược cầu nối thực tế. Nếu cần phát hành một cặp ngôn ngữ mới nhanh chóng, có thể triển khai mô hình lớn trước, trong khi mô hình dịch thuật chuyên dụng được huấn luyện song song. Như vậy, người dùng nhận được hỗ trợ ngay lập tức, và trải nghiệm có thể cải thiện theo thời gian khi mô hình nhỏ hơn thay thế mô hình tạm thời.

Một chủ đề khác trong bài đăng là dịch theo lô. Ardoino nói rằng điều này trở nên quan trọng khi nhóm vượt ra ngoài các bản trình diễn và bắt đầu nghĩ về các trường hợp sử dụng sản xuất như tài liệu, lịch sử trò chuyện và đầu vào nhiều câu.

Dịch từng câu một có thể phù hợp với giao diện đơn giản, nhưng xử lý theo lô tạo ra sự khác biệt lớn trong các ứng dụng thực tế. Nhóm cho biết kết quả là tốc độ xử lý nhanh gấp khoảng 2,5 lần khi mở rộng quy mô, với cải thiện rõ rệt về độ trễ trên mỗi câu.

Phần tham vọng nhất của đề xuất là phạm vi. Thay vì cố gắng xây dựng một mô hình riêng cho mọi cặp ngôn ngữ có thể, QVAC sử dụng tiếng Anh làm trung tâm. Điều đó có nghĩa là một lộ trình dịch, chẳng hạn như tiếng Tây Ban Nha sang tiếng Ý, có thể được xử lý bằng cách kết hợp các mô hình Tây Ban Nha sang tiếng Anh và tiếng Anh sang tiếng Ý.

Về mặt thực tế, điều này giảm số lượng mô hình cần thiết từ một số lượng khổng lồ xuống còn khoảng 50 mô hình, thay vì 650, làm cho hệ thống dịch trên thiết bị rộng rãi trở nên khả thi hơn nhiều.

Ông cũng chia sẻ các số liệu benchmark cho thấy lý do tại sao phương pháp này quan trọng trên phần cứng thực tế. Trên một laptop Linux, mô hình tiếng Anh sang tiếng Ý của Bergamot được tải trong chưa đầy 100 mili giây và cung cấp chất lượng dịch cao.

Trên một Pixel 10 Pro XL chạy trực tiếp trên thiết bị, mô hình tải trong chưa đầy 80 mili giây và hoạt động đặc biệt tốt trong chế độ theo lô. Ardoino nói rằng kết quả trên điện thoại di động cho thấy lợi thế rõ ràng so với dịch theo trình tự, với xử lý theo lô mang lại trải nghiệm phản hồi nhanh hơn nhiều.

Nhìn về phía trước, nhóm cho biết đang mở rộng sang các ngôn ngữ Ấn Độ qua IndicTrans và mở rộng phạm vi ngôn ngữ châu Phi qua AfriqueGemma, đồng thời khám phá dịch streaming cho trò chuyện trực tiếp và tạo phụ đề. Thông điệp rộng hơn của bài đăng là AI cục bộ không nhất thiết phải là một sự thỏa hiệp. Trong dịch thuật, ít nhất, Ardoino lập luận rằng các mô hình nhỏ hơn không chỉ đủ mà còn tốt hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim