DeepSeek เปิดตัว Vision Mode พร้อมกรอบงาน Visual Primitives สำหรับการให้เหตุผลเชิงพื้นที่

อ้างอิงจากการติดตามของ Beating ระบุว่า DeepSeek ได้เปิดตัวโหมด Vision อย่างเป็นทางการแล้วทั้งบนแพลตฟอร์มเว็บและแอป โดยมีความสามารถวิเคราะห์ฉากเชิงลึก การให้เหตุผลเชิงพื้นที่ และความสามารถในการแปลงภาพหน้าจอจาก UI ให้เป็นโค้ดที่จัดโครงสร้างเป็น HTML ได้โดยตรง

ความสามารถด้านวิชันใหม่ถูกพัฒนาบนกรอบงานวิจัยของ DeepSeek เรื่อง "Thinking with Visual Primitives" ซึ่งร่วมพัฒนากับนักวิจัยจากมหาวิทยาลัยปักกิ่ง (Peking University) และมหาวิทยาลัย Tsinghua University แนวทางเบื้องหลังมุ่งแก้ช่องว่างด้านการให้เหตุผลเชิงพื้นที่ในโมเดลภาษาด้านภาพที่มีอยู่ ด้วยการมองจุดพิกัดและกรอบครอบ (bounding boxes) เป็นหน่วยคิดหลัก ทำให้โมเดลสามารถทำการให้เหตุผลด้านภาพโดยอ้างอิงเชิงพื้นที่แบบบูรณาการระหว่างการอนุมาน เอกสารวิชาการฉบับพื้นฐานเผยแพร่ชั่วคราวเมื่อวันที่ 30 เมษายน แต่ DeepSeek ได้ถอนเอกสารดังกล่าวในวันที่ 1 พฤษภาคม ขณะนี้โหมด Vision รองรับเฉพาะการป้อนภาพเท่านั้น ยังไม่รองรับวิดีโอหรือเสียง และยังไม่มีความสามารถในการสร้างภาพ

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น