По данным мониторинга Beating, DeepSeek официально запустила Vision Mode на платформах web и в приложении: он включает глубокий анализ сцен, пространственные рассуждения и возможность конвертировать скриншоты интерфейса напрямую в HTML-структурированный код.

Новая визуальная функция создана на базе исследовательской платформы DeepSeek «Thinking with Visual Primitives», соразработанной с исследователями Пекинского университета и Университета Цинхуа. В основе подхода лежит устранение пробелов в пространственных рассуждениях у существующих визуальных языковых моделей: координатные точки и ограничивающие рамки рассматриваются как ключевые единицы мышления, что позволяет модели выполнять визуальные рассуждения с интегрированной пространственной привязкой во время инференса. Базовая научная статья была кратко опубликована 30 апреля, но затем отозвана DeepSeek 1 мая. В настоящее время Vision Mode поддерживает только ввод изображений — без поддержки видео или аудио, и не включает функции генерации изображений.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

22ч назад

DeepSeek привлекает 51 миллиард юаней в раунде Series A, Tencent лидирует; оценка достигает 400 миллиардов юаней

06-17 07:21

xAI запускает Grok Imagine Video 1.5, сокращая время рендеринга 720p до 25 секунд с 40+ секунд

06-17 02:04

Microsoft рассматривает интеграцию модели DeepSeek в Copilot Cowork, 16 июня переходит на ценообразование по модели использования

06-17 01:13

DeepSeek привлекла 7,4 миллиарда долларов в первом раунде финансирования при оценке в 50 миллиардов долларов

06-16 05:17

DeepSeek завершает рекордный раунд финансирования $7B на сумму $500B+ при оценке в $500B+

Детальный анализ