تقرير تقنية ديب سيك متعددة الوسائط: تعليم النموذج «التفكير بالإشارة بالإصبع»، التنقل في المتاهة يتفوق على GPT-5.4 بما يقرب من 17 نقطة

robot
إنشاء الملخص قيد التقدم

موقع CoinWorld يذكر أن DeepSeek أصدرت تقرير تقنية الاستدلال متعدد الوسائط بعنوان “التفكير باستخدام المبادئ البصرية”، مقترحة نمط استدلال جديد: حيث يفكر النموذج كما يفعل الإنسان باستخدام أصابعه لتحديد الأشياء، حيث يدمج الإحداثيات مباشرة في سلسلة التفكير، مع تحديد كل كائن بصري معني. هذا المشروع مفتوح المصدر على GitHub، ويستخدم ترخيص MIT. أحد التحديات الأساسية في النماذج متعددة الوسائط هو “فجوة الإشارة”، حيث يمكن للنموذج رؤية الصورة بوضوح، لكن عند الاستدلال لا يمكنه إلا وصف الكائنات البصرية باستخدام اللغة الطبيعية، مما يصعب تحديد المواقع في المشاهد المعقدة. حل DeepSeek لهذه المشكلة هو تحويل مربعات الحدود ونقاط الإحداثيات إلى وحدات أدنى للاستدلال. النموذج يعتمد على بنية v4-flash، مع ضغط مكثف للرموز البصرية، وأظهرت نتائج الاختبار أداءً ممتازًا في العديد من الاختبارات المعيارية، خاصة في الاستدلال الطوبولوجي ومهام التنقل في المتاهة، متفوقًا بشكل كبير على النماذج الأخرى.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت