По данным мониторинга Beating, DeepSeek официально запустила Vision Mode на платформах web и в приложении: он включает глубокий анализ сцен, пространственные рассуждения и возможность конвертировать скриншоты интерфейса напрямую в HTML-структурированный код.
Новая визуальная функция создана на базе исследовательской платформы DeepSeek «Thinking with Visual Primitives», соразработанной с исследователями Пекинского университета и Университета Цинхуа. В основе подхода лежит устранение пробелов в пространственных рассуждениях у существующих визуальных языковых моделей: координатные точки и ограничивающие рамки рассматриваются как ключевые единицы мышления, что позволяет модели выполнять визуальные рассуждения с интегрированной пространственной привязкой во время инференса. Базовая научная статья была кратко опубликована 30 апреля, но затем отозвана DeepSeek 1 мая. В настоящее время Vision Mode поддерживает только ввод изображений — без поддержки видео или аудио, и не включает функции генерации изображений.