Microsoft Open-nguồn mô hình Phi-Ground 4B, vượt trội OpenAI Operator và Claude về độ chính xác khi bấm màn hình

Theo Beating, Microsoft gần đây đã mã nguồn mở họ mô hình Phi-Ground, được thiết kế để giải quyết vấn đề AI nên nhấp vào đâu trên màn hình máy tính. Phiên bản 4 tỷ tham số, kết hợp với các mô hình ngôn ngữ lớn hơn để lập kế hoạch theo hướng dẫn, đã vượt độ chính xác nhấp chuột của OpenAI Operator và Claude Computer Use trong benchmark Showdown, đồng thời xếp hạng đầu trong số tất cả các mô hình dưới 100 tỷ tham số qua năm đánh giá, bao gồm cả ScreenSpot-Pro.

Nhóm đã huấn luyện trên hơn 40 triệu mẫu dữ liệu và phát hiện rằng 3 kỹ thuật huấn luyện phổ biến được sử dụng trong các bài báo học thuật trở nên kém hiệu quả khi triển khai ở quy mô lớn. Cách tiếp cận cốt lõi lại khá đơn giản: xuất tọa độ dưới dạng các con số thông thường, chẳng hạn như “523, 417”. Các nghiên cứu trước đó đã tạo ra từ vựng vị trí chuyên biệt cho tọa độ, nhưng không thể mở rộng quy mô. Nhóm cũng phát hiện rằng việc đặt chỉ dẫn bằng văn bản trước hình ảnh giúp cải thiện hiệu suất, vì mô hình có thể xác định mục tiêu trong khi xử lý pixel. Ngoài ra, các phương pháp học tăng cường như DPO cải thiện độ chính xác ngay cả sau khi fine-tuning.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Rủi ro địa chính trị đứng đầu khảo sát mùa xuân 2026 của Cục Dự trữ Liên bang, AI vươn lên vị trí thứ ba

Theo một cuộc khảo sát của Cục Dự trữ Liên bang được thực hiện vào mùa xuân năm 2026, người tham gia xếp rủi ro địa chính trị là mối quan tâm hàng đầu, tăng 1 bậc so với cuộc khảo sát mùa thu năm 2025. Trí tuệ nhân tạo từ vị trí thứ 5 đã vươn lên thứ 3, trong khi tín dụng tư nhân leo lên vị trí thứ 4 từ vị trí thứ 9. Lạm phát và siết chặt tiền tệ giảm xuống vị trí thứ 5 từ vị trí thứ 3, phản ánh sự thay đổi trong các rủi ro kinh tế được người tham gia khảo sát đánh giá.

GateNews2phút trước

Google ra mắt giao thức thanh toán cho tác nhân AI với hơn 120 đối tác, bao gồm PayPal

Theo CoinDesk, các lãnh đạo Google Cloud và PayPal đã thảo luận về việc thanh toán bằng tiền mã hóa sẽ làm nền tảng cho thương mại do các AI Agent thúc đẩy. Trưởng chiến lược Web3 của Google Cloud, Richard Widmann, cho biết Google đã ra mắt Agentic Payments Protocol (AP2), đóng góp cho FIDO Foundation, với hơn 120 đối tác, trong đó PayPal hiện đã tham gia. Widmann nhận định rằng các AI Agent không thể mở tài khoản ngân hàng truyền thống do ràng buộc kỹ thuật và quy định, khiến crypto trở thành “

GateNews5giờ trước

Apple giải quyết vụ kiện trị giá 250 triệu USD về quảng cáo iPhone AI không đúng sự thật: mỗi máy được bồi thường tối đa 95 đô la Mỹ

Apple đồng ý trả 250 triệu USD dàn xếp, giải quyết một vụ kiện tập thể cáo buộc công ty này đã phóng đại các tính năng AI “Apple Intelligence” trên iPhone. Top Class Actions tổng hợp: Nguyên đơn cho rằng Apple trong các hoạt động marketing cho iPhone 16 và một số mẫu iPhone 15 đã ngụ ý rằng các tính năng AI (bao gồm Siri được nâng cấp đáng kể) sẽ có sẵn ngay khi thiết bị ra mắt, nhưng thực tế việc ra mắt tính năng bị trì hoãn. Người dùng đủ điều kiện có thể nộp đơn nhận bồi thường từ 25 USD (mức

ChainNewsAbmedia5giờ trước

Alphabet trong 1 năm tăng 160%, vốn hóa từng vượt Nvidia sau giờ giao dịch: giá trị của “toàn bộ chồng AI” được hiện thực hóa

Cổ phiếu Alphabet(GOOGL)trong một năm qua tăng khoảng 160%, sau khi công bố báo cáo tài chính Q1 năm 2026, các nhà phân tích cho rằng đà tăng này đến từ định vị cạnh tranh của Google trong “stack AI full stack” (toàn bộ ngăn xếp). CNBC tổng hợp: Doanh thu hợp nhất của Alphabet Q1 tăng 22% so với cùng kỳ lên 109,9 tỷ USD, lợi nhuận ròng tăng mạnh 81% lên 62,6 tỷ USD; doanh thu Google Cloud tăng 63% so với cùng kỳ lên 20 tỷ USD, lần đầu tiên vượt ngưỡng này; backlog cloud tăng liên tiếp theo quý l

ChainNewsAbmedia6giờ trước

Các khoản đầu tư vốn của Nvidia vượt 400 tỷ USD vào năm 2026, mở rộng hệ sinh thái AI

Theo Gelonghui, các khoản đầu tư vốn cổ phần của Nvidia đã vượt 400 tỷ USD vào năm 2026 tính đến ngày 9/5. Các khoản đầu tư trải rộng từ doanh nghiệp thượng nguồn đến hạ nguồn trong lĩnh vực AI, hình thành một hệ sinh thái tích hợp từ sản xuất chip đến phát triển mô hình AI. Các nhà quan sát trong ngành cho rằng chiến lược đầu tư này giúp Nvidia giành được khách hàng ở hạ nguồn đồng thời củng cố đường ống nhu cầu đối với phần cứng của mình.

GateNews6giờ trước

Quantra và FishWar công bố quan hệ đối tác chiến lược nhằm tích hợp AI gaming với hạ tầng RWA vào ngày 9 tháng 5

Theo các thông báo chính thức vào ngày 9/5, Quantra và FishWar đã công bố quan hệ hợp tác chiến lược nhằm kết hợp các trải nghiệm gaming được hỗ trợ AI với hạ tầng blockchain tài sản ngoài đời thực. Sự hợp tác này được chia sẻ trên cả kênh truyền thông xã hội chính thức của hai công ty, hướng tới việc tích hợp các giải pháp token hóa RWA của Quantra với nền tảng GameFi của FishWar trên Sei Network. Quan hệ đối tác nhằm tăng cường khả năng mở rộng của gaming trên blockchain, tương tác trực tuyến

GateNews6giờ trước
Bình luận
0/400
Không có bình luận