De acordo com o monitoramento da Beating, a DeepSeek lançou oficialmente o Vision Mode nas plataformas web e de aplicativos, com análise profunda de cenas, raciocínio espacial e a capacidade de converter diretamente capturas de tela da interface em código estruturado em HTML.
A nova capacidade de visão é construída sobre o framework de pesquisa da DeepSeek de “Thinking with Visual Primitives”, co-desenvolvido com pesquisadores da Peking University e da Tsinghua University. A abordagem subjacente trata das lacunas de raciocínio espacial em modelos atuais de linguagem visual ao tratar pontos de coordenadas e caixas delimitadoras como unidades centrais de pensamento, permitindo que o modelo realize raciocínio visual com referência espacial integrada durante a inferência. O artigo acadêmico base foi disponibilizado por um breve período em 30 de abril, mas foi retirado pela DeepSeek em 1º de maio. O Vision Mode atualmente oferece suporte apenas a entrada de imagens, sem suporte a vídeo ou áudio, e não tem recursos de geração de imagens.