DeepSeek 推出視覺模式,並以視覺基本元件框架(Visual Primitives Framework)支援空間推理

DEEPSEEK-5.99%

根據 Beating 監控,DeepSeek 已正式在網頁與應用程式平台推出 Vision Mode(視覺模式),提供深度場景分析、空間推理能力,並可將介面截圖直接轉換為具 HTML 結構的程式碼。

這項新的視覺能力建立在 DeepSeek 的研究框架「Thinking with Visual Primitives」,該框架由北大與清華大學的研究人員共同開發。底層方法透過將座標點與邊界框視為核心思考單位,來彌補既有視覺語言模型在空間推理上的不足,使模型能在推論過程中整合空間參照進行視覺推理。基礎學術論文曾在 4 月 30 日短暫發布,但在 5 月 1 日被 DeepSeek 撤回。目前,Vision Mode 僅支援影像輸入,不支援影片或音訊,且不具備影像生成能力。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆