Rapport technique DeepSeek multimodal : enseigner au modèle à « penser en pointant du doigt », la navigation dans le labyrinthe dépasse GPT-5.4 de près de 17 points de pourcentage

robot
Création du résumé en cours

CoinWorld消息,DeepSeek发布了多模态推理技术报告「用视觉原语思考」,提出了一种新型推理范式:模型在思考时像人用手指点东西一样,将坐标直接嵌入思维链中,锁定每一个涉及的视觉对象。该项目在GitHub上开源,采用MIT许可。当前多模态模型的一个核心瓶颈是「指代鸿沟」,模型能看清图片,但推理时只能用自然语言描述视觉对象,场景复杂时定位困难。DeepSeek通过将边界框和点坐标变成推理的最小单元,解决了这一问题。模型基于v4-flash架构,视觉token压缩极端,测试结果显示在多个基准测试中表现优异,尤其在拓扑推理和迷宫导航任务上大幅领先其他模型。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler