อ้างอิงจากการติดตามของ Beating ระบุว่า DeepSeek ได้เปิดตัวโหมด Vision อย่างเป็นทางการแล้วทั้งบนแพลตฟอร์มเว็บและแอป โดยมีความสามารถวิเคราะห์ฉากเชิงลึก การให้เหตุผลเชิงพื้นที่ และความสามารถในการแปลงภาพหน้าจอจาก UI ให้เป็นโค้ดที่จัดโครงสร้างเป็น HTML ได้โดยตรง

ความสามารถด้านวิชันใหม่ถูกพัฒนาบนกรอบงานวิจัยของ DeepSeek เรื่อง "Thinking with Visual Primitives" ซึ่งร่วมพัฒนากับนักวิจัยจากมหาวิทยาลัยปักกิ่ง (Peking University) และมหาวิทยาลัย Tsinghua University แนวทางเบื้องหลังมุ่งแก้ช่องว่างด้านการให้เหตุผลเชิงพื้นที่ในโมเดลภาษาด้านภาพที่มีอยู่ ด้วยการมองจุดพิกัดและกรอบครอบ (bounding boxes) เป็นหน่วยคิดหลัก ทำให้โมเดลสามารถทำการให้เหตุผลด้านภาพโดยอ้างอิงเชิงพื้นที่แบบบูรณาการระหว่างการอนุมาน เอกสารวิชาการฉบับพื้นฐานเผยแพร่ชั่วคราวเมื่อวันที่ 30 เมษายน แต่ DeepSeek ได้ถอนเอกสารดังกล่าวในวันที่ 1 พฤษภาคม ขณะนี้โหมด Vision รองรับเฉพาะการป้อนภาพเท่านั้น ยังไม่รองรับวิดีโอหรือเสียง และยังไม่มีความสามารถในการสร้างภาพ

news.view.source

news.article.disclaimer

news.related.news

20 ชั่วโมง ที่แล้ว

DeepSeek ระดมทุนซีรีส์ A มูลค่า 51 พันล้านหยวน โดย Tencent เป็นผู้นำ; มูลค่าระดมทุนสูงถึง 400 พันล้านหยวน

06-17 07:21

xAI เปิดตัว Grok Imagine Video 1.5 ลดเวลาเรนเดอร์ 720p เหลือ 25 วินาที จากเดิมมากกว่า 40 วินาที

06-17 02:04

Microsoft พิจารณานำโมเดล DeepSeek มาใช้ใน Copilot Cowork และปรับเปลี่ยนไปใช้การกำหนดราคาแบบคิดตามการใช้งานในวันที่ 16 มิถุนายน

06-17 01:13

DeepSeek ระดมทุนรอบแรกได้ 7.4 พันล้านดอลลาร์ ที่การประเมินมูลค่า 50 พันล้านดอลลาร์

06-16 05:17