Nhà nghiên cứu của Microsoft chiến thắng trong chuẩn đánh giá tự phát triển Perplexity: Đánh giá hai mô hình tiến vào Frontier, Cowork đồng bộ mở rộng đại lý nhiệm vụ dài

BlockBeatNews

Theo dõi từ 1M AI News, Microsoft đồng bộ mở hai năng lực Microsoft 365 Copilot mới thông qua Frontier (chương trình thử nghiệm sớm dành cho người dùng doanh nghiệp; người tham gia có thể dùng thử trước các tính năng Copilot chưa được ra mắt chính thức).

Researcher (Agent nghiên cứu chuyên sâu tích hợp sẵn trong Copilot) bổ sung hai chế độ cộng tác đa mô hình là Critique và Council. Critique là sự phối hợp giữa các mô hình thuộc Anthropic và OpenAI: một mô hình chịu trách nhiệm lên kế hoạch, truy xuất và soạn thảo, mô hình còn lại chuyên phụ trách thẩm định và tinh chỉnh; khi chọn Auto thì mặc định bật. Council cũng vận hành song song hai mô hình, mỗi mô hình tạo ra một báo cáo hoàn chỉnh, sau đó một mô hình đánh giá riêng sẽ tổng hợp các điểm giống và khác nhau. Microsoft sử dụng GPT-5.2 làm mô hình chấm điểm (một trong ba phương pháp chấm điểm trong bài luận gốc, đây là phương pháp nghiêm ngặt nhất), để thử nghiệm Critique trên bộ chuẩn DRACO (100 câu hỏi nghiên cứu phức tạp do các nhà nghiên cứu của Perplexity công bố, bao phủ 10 lĩnh vực). Tổng điểm cho thấy cao hơn 7,0 điểm so với hệ thống tốt nhất trong bộ chuẩn là Perplexity Deep Research (dùng Claude Opus 4.6), tương ứng tăng 13,88% so với trước. Bài luận gốc DRACO không bao gồm Critique; đây là dữ liệu Microsoft tự kiểm thử theo cùng giao thức đánh giá.

Copilot Cowork hướng đến các công việc nhiều bước kéo dài hơn: trước hết tạo kế hoạch dựa trên mục tiêu, sau đó lần lượt triển khai qua nhiều công cụ và tệp tin; trong quá trình thực hiện sẽ hiển thị tiến độ, và người dùng có thể can thiệp bất cứ lúc nào. Microsoft lấy Capital Group làm ví dụ thử nghiệm sớm, cho biết họ đã dùng cho việc lập kế hoạch dự án, lên lịch, tạo các tài liệu bàn giao và chuẩn bị cho các buổi tổng kết/đánh giá của ban điều hành.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận