DeepSeek多模态技术报告:教模型「用手指点着想」,迷宫导航超GPT-5.4近17个百分点

robot
Генерация тезисов в процессе

Китайский сайт CoinWorld сообщает, что DeepSeek опубликовала технический отчет о мультимодальном выводе «thinking with visual primitives», предложив новый парадигмальный подход к рассуждению: модель при размышлении, как человек, использует указание пальцем, прямо вставляя координаты в цепочку мышления, чтобы зафиксировать каждый визуальный объект, участвующий в процессе. Этот проект открыт на GitHub под лицензией MIT. Одним из ключевых узких мест современных мультимодальных моделей является «пропасть указаний»: модель хорошо видит изображение, но при выводе может использовать только естественный язык для описания визуальных объектов, что затрудняет локализацию в сложных сценах. DeepSeek решает эту проблему, превращая рамки границ и координаты точек в минимальные единицы рассуждения. Модель основана на архитектуре v4-flash, с экстремальным сжатием визуальных токенов, и результаты тестирования показывают отличные показатели на нескольких бенчмарках, особенно в топологическом рассуждении и навигации по лабиринтам, значительно превосходя другие модели.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить