DeepSeek опублікував звіт про мультимодальне мислення «thinking with visual primitives», у якому пропонується безпосередньо вставляти координати у ланцюг мислення під час розуміння, ніби вказуючи на об'єкт пальцем, щоб зафіксувати кожен візуальний об'єкт. Використовуючи рамки або координати точок як мінімальні одиниці розуміння, це зменшує розрив у посиланнях. На базі архітектури v4-flash, вона надзвичайно стискає візуальні токени, що дозволяє досягти лідерства у задачах топологічного мислення та навігації лабіринтами. Відкритий код на GitHub, ліцензія MIT.

CoinNetwork

2026-04-30 23:50:34

Генерація анотацій у процесі

Біржова мережа повідомляє, що DeepSeek опублікувала технічний звіт з мультимодального дедуктивного мислення «thinking with visual primitives», у якому пропонується новий парадигмальний підхід до дедукції: модель під час мислення, як людина, яка вказує пальцем, безпосередньо вставляє координати у ланцюг мислення, фіксуючи кожен залучений візуальний об’єкт. Цей проект відкритий на GitHub під ліцензією MIT. Одним із ключових вузьких місць сучасних мультимодальних моделей є «протиріччя посилань»: модель може чітко бачити зображення, але при дедукції може використовувати лише природну мову для опису візуальних об’єктів, що ускладнює локалізацію у складних сценах. DeepSeek вирішує цю проблему, перетворюючи рамки обмежень і координати точок у найменші одиниці дедукції. Модель побудована на архітектурі v4-flash, з екстремальним стисненням візуальних токенів, і результати тестування показують високі результати у кількох бенчмарках, особливо у топологічній дедукції та навігації лабіринтами, значно випереджаючи інші моделі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
470.75K Популярність
#
USSeeksStrategicBitcoinReserve
58.71M Популярність
#
IsraelStrikesIranBTCPlunges
37.66K Популярність
#
BitcoinETFOptionLimitQuadruples
998.68K Популярність
#
#FedHoldsRateButDividesDeepen
31.53K Популярність

Закріпити

карта сайту

Звіт про мультимодальні технології DeepSeek: навчання моделі «думати, вказуючи пальцем», навігація у лабіринті на понад 17% краще за GPT-5.4

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити