Звіт про мультимодальні технології DeepSeek: навчання моделі «думати, вказуючи пальцем», навігація у лабіринті на понад 17% краще за GPT-5.4

robot
Генерація анотацій у процесі

Біржова мережа повідомляє, що DeepSeek опублікувала технічний звіт з мультимодального дедуктивного мислення «thinking with visual primitives», у якому пропонується новий парадигмальний підхід до дедукції: модель під час мислення, як людина, яка вказує пальцем, безпосередньо вставляє координати у ланцюг мислення, фіксуючи кожен залучений візуальний об’єкт. Цей проект відкритий на GitHub під ліцензією MIT. Одним із ключових вузьких місць сучасних мультимодальних моделей є «протиріччя посилань»: модель може чітко бачити зображення, але при дедукції може використовувати лише природну мову для опису візуальних об’єктів, що ускладнює локалізацію у складних сценах. DeepSeek вирішує цю проблему, перетворюючи рамки обмежень і координати точок у найменші одиниці дедукції. Модель побудована на архітектурі v4-flash, з екстремальним стисненням візуальних токенів, і результати тестування показують високі результати у кількох бенчмарках, особливо у топологічній дедукції та навігації лабіринтами, значно випереджаючи інші моделі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити