Microsoft відкриває вихідний код моделі Phi-Ground 4B, перевершує OpenAI Operator і Claude за точністю кліків по екрані

За Beating, Microsoft нещодавно відкрито опублікувала у відкритому доступі сімейство моделей Phi-Ground, створених для вирішення проблеми того, куди саме ШІ має клікати на екрані комп’ютера. Версія з 4 мільярдами параметрів у парі з більшими мовними моделями для планування інструкцій перевищила точність кліків OpenAI Operator і Claude Computer Use у бенчмарку Showdown та посіла перше місце серед усіх моделей із менш ніж 100 мільярдами параметрів у п’яти оцінюваннях, зокрема в ScreenSpot-Pro.

Команда навчала модель більш ніж на 40 мільйонах датасетів і з’ясувала, що три поширені техніки тренування, які використовують у наукових статтях, стали неефективними в масштабі. Ключовий підхід виявився простим: виводити координати як звичайні числа, наприклад, “523, 417.” Попередні дослідження створювали спеціалізовані словники позицій для координат, але вони не витримали масштабування. Також команда виявила, що розміщення текстових інструкцій перед зображеннями підвищує продуктивність, оскільки моделі могли визначати цілі під час опрацювання пікселів. Крім того, методи підкріплювального навчання на кшталт DPO покращили точність навіть після донавчання.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Google запустила протокол оплати для AI-агентів із 120+ партнерами, зокрема PayPal

Відповідно до CoinDesk, керівники Google Cloud і PayPal обговорили, як криптовалютні платежі стануть основою комерції, керованої AI-агентами. Лідер Web3-стратегії Google Cloud Річард Відманн повідомив, що Google запустила Agentic Payments Protocol (AP2), зробила донат у FIDO Foundation і має понад 120 партнерів, серед яких PayPal уже бере участь. Відманн зазначив, що AI-агенти не можуть відкривати традиційні банківські рахунки через технічні та регуляторні обмеження, тому криптовалюта є «вельми

GateNews2год тому

Apple врегулювала справу на 250 мільйонів доларів через недостовірну рекламу iPhone AI: компенсація до 95 доларів за кожен пристрій

Apple погодилася виплатити 250 мільйонів доларів за мировою угодою й врегулювати колективний позов у справі про те, що компанія перебільшувала на iPhone можливості «Apple Intelligence» AI. Огляд Top Class Actions: позивачі стверджують, що Apple у маркетингових кампаніях для iPhone 16 і деяких моделей iPhone 15 натякала, що AI-функції (зокрема суттєво оновлений Siri) будуть доступні вже під час виходу пристрою на ринок, тоді як фактичний запуск функцій затримали. Користувачі, які відповідають умо

ChainNewsAbmedia2год тому

Alphabet за рік виріс на 160%, а ринкова капіталізація в якийсь момент після закриття перевищила NVIDIA: утілення цінності «всього AI-стеку»

Alphabet(GOOGL)股价過去一年漲約 160%、Q1 2026 財報後分析師將此漲幅歸因於 Google 在 AI 完整堆疊(full stack)上的競爭定位。CNBC 報導整理:Alphabet Q1 合併營收年增 22% 至 1,099 億美元、淨利大幅增 81% 至 626 億美元;Google Cloud 營收年增 63% 至 200 億美元、首度突破該門檻;雲端 backlog 連續環比近翻倍至 4,620 億美元。Alphabet 上週盤後曾短暫超越輝達(NVIDIA)成為市值最大公司。 「擁有整個 AI 堆疊」的具體內容:晶片、模型、雲、軟體 Alphabet 的 AI 全堆疊覆蓋層級: 晶片:自家 TPU(Tensor Processing Unit)系列、減少對輝達 GPU 的依賴 大型語言模型:Gemini 系列、與 OpenAI、Anthropic 直接競爭 雲端基礎建設:Google Cloud Platform、Q1 +63% 是最快成長雲端業者 雲端應用:Workspace、AI 應用整合進企業生產力套件 研究:DeepMind、AlphaEvo

ChainNewsAbmedia2год тому

Фондові інвестиції Nvidia перевищать 400 мільярдів доларів у 2026 році, розширюючи екосистему ШІ

За даними Gelonghui, частка інвестицій Nvidia перевищила 400 мільярдів доларів у 2026 році станом на 9 травня. Інвестиції охоплюють підприємства рівня upstream і downstream у межах AI-сектора, формуючи інтегровану екосистему — від виробництва чипів до розробки AI-моделей. Спостерігачі в галузі зазначають, що така інвестиційна стратегія дає Nvidia змогу залучати клієнтів на рівні downstream і водночас посилювати конвеєр попиту на її обладнання.

GateNews3год тому

Quantra і FishWar оголошують стратегічне партнерство для інтеграції AI-ігор із інфраструктурою RWA 9 травня

За офіційними оголошеннями від 9 травня Quantra та FishWar оголосили про стратегічне партнерство, щоб об’єднати ігрові досвіди з підтримкою ШІ та інфраструктуру блокчейну реальних активів. Співпрацю, яку опублікували в офіційних соцмережах обох компаній, спрямовано на інтеграцію рішень Quantra для токенізації RWA з платформою FishWar GameFi у мережі Sei Network. Партнерство має на меті посилити масштабованість блокчейн-ігор, взаємодію в ланцюжку та інтеграцію цифрових активів, водночас вирішуючи

GateNews3год тому

Сем Альтман розкрив розподіл використання ChatGPT за віком: понад третину людей 18–24 років користуються ним щодня станом на 10 травня

Згідно з Fortune, CEO OpenAI Сем Альтман 10 травня розповів, що користувачі ChatGPT різних вікових груп мають відмінні моделі використання. Старші користувачі розглядають платформу як заміну Google-пошуку, тоді як ті, кому 20–30 років, використовують її як персонального радника. Університетські студенти застосовують її як щоденну операційну систему, використовуючи пам’ять розмов для емоційних порад, переговорів щодо кар’єри, медичних консультацій і важливих життєвих рішень. Понад третину америка

GateNews4год тому
Прокоментувати
0/400
Немає коментарів