تم إعادة تقييم GPT-5.5 '9.7 تريليون معلمة': تم تعديلها إلى حوالي 1.5 تريليون

وفقًا للمراقبة التي أجرتها Beating، نشر الباحثان في مجال الذكاء الاصطناعي لورانس تشان وبينو ستورجون مراجعة لورقة بحثية كتبها كبير العلماء في Pine AI لي بو جي بعنوان “استقصاءات المعرفة غير القابلة للضغط: تقدير عدد المعلمات لنماذج اللغة الكبيرة ذات الصندوق الأسود استنادًا إلى سعة الحقائق”. قدرت الورقة الأصلية أن GPT-5.5 يبلغ حوالي 9.7 تيراوحد، وClaude Opus حوالي 4.7 تيراوحد، وo1 حوالي 3.5 تيراوحد باستخدام 1400 سؤال تريفيا “لوزن” النماذج مغلقة المصدر. يعتقد المراجعون أن النهج نفسه ذو قيمة، لكن الأرقام الأصلية كانت مبالغًا فيها بشكل كبير بسبب معايير التقييم وجودة الأسئلة. المشكلة الرئيسية تكمن في “درجة الأرضية”. قسمت الورقة الأصلية الأسئلة إلى سبعة مستويات صعوبة، وعندما يجيب النموذج على الكثير من الأسئلة بشكل خاطئ عند مستوى معين، يمكن أن تصبح الدرجة سالبية نظريًا؛ ومع ذلك، فإن الكود فعليًا أعاد أدنى درجة لكل مستوى إلى 0. هذا أدى إلى تضخيم فجوة الأداء بين النماذج المتطورة على الأسئلة الصعبة وزاد من عدد المعلمات المستنتج. تدعي الورقة أن هذا لم يُعالج بهذه الطريقة، لكن الكود والنتائج المنشورة استخدمتا هذا المعالجة. بعد إزالة “درجة الأرضية”، انخفض ميل التناسب من 6.79 إلى 3.56. يمكن فهم هذا الميل على أنه “لكل زيادة نقطة في الدرجة، كم يتضاعف عدد المعلمات”، وميل أصغر يشير إلى أن الفرق في الدرجة نفسه لم يعد يعادل فرقًا مبالغًا فيه في عدد المعلمات. انخفضت قيمة R² من 0.917 إلى 0.815، مما يدل على أن منحنى التناسب بين “الدرجة وعدد المعلمات” ليس مستقرًا كما في الورقة الأصلية. اتسعت فترة التنبؤ بنسبة 90% من 3.0 أضعاف إلى 5.7 أضعاف، مما يشير إلى هامش خطأ أوسع وأن الأرقام الفردية لا ينبغي الاعتماد عليها بشكل كبير. كما أشار المراجعون إلى أن 131 من أصل 1400 سؤال كان بها غموض أو إجابات غير صحيحة، وهو ما يمثل 9.4%. كانت المشكلات مركزة بشكل رئيسي في الأسئلة الصعبة، التي كانت تُستخدم لتمييز النماذج المتطورة مغلقة المصدر مثل GPT-5.5 وClaude Opus 4.7. وفقًا لمعاييرهم المعدلة، تم تقليل تقدير GPT-5.5 من 9659 مليار إلى 1458 مليار، مع فترة تنبؤ بنسبة 90% من 256 مليار إلى 8311 مليار؛ وتم تقليل Claude Opus 4.7 من 4042 مليار إلى 1132 مليار؛ وتم تقليل GPT-5 من 4088 مليار إلى 1330 مليار. كما أكد المراجعون أن 1.5 تيراوحد لا ينبغي اعتباره العدد الحقيقي للمعلمات لـ GPT-5.5. استنتاج أكثر دقة هو أن “طريقة وزن التريفيا” هذه حساسة جدًا لتفاصيل التقييم وجودة الأسئلة، والأرقام مثل 9.7 تيراوحد لا يمكن استخدامها مباشرة كمقياس وزن للنماذج مغلقة المصدر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت