تسارعت المنافسة بين نماذج اللغة الكبيرة بالفعل. من خلال التقدم الذي تم إحرازه في الأشهر القليلة الماضية، فإن أداء GLM-4.7 في المهام المتعلقة بالوكيل قوي للغاية - سواء في استدعاء الأدوات، أو زحف الويب، أو الاستدلال الرياضي، حيث يظهر العديد من المزايا. ومع ذلك، لا تزال Claude و GPT تتصدران في قدرات هندسة البرمجيات (معيار SWE-bench) ودقة عمليات سطر الأوامر.



من المثير للاهتمام أن أداء هذه النماذج في تطبيقات التشفير يظهر اختلافات أكثر وضوحًا. كل شركة تبرز قدرتها على تحليل البيانات على السلسلة، وتدقيق العقود الذكية، والتفاعل مع DeFi، لكن النتائج الفعلية تختلف حسب المهمة. خاصة عند التعامل مع عمليات متعددة الخطوات المعقدة وتوليد الشفرات الهندسية، فإن الفجوة في الأداء بين النماذج المختلفة لا تزال كبيرة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • إعادة النشر
  • مشاركة
تعليق
0/400
EternalMinervip
· منذ 23 س
Haha GLM لديها شيء ما في هذه الموجة ، لكن دائرة التشفير لا تزال تعتمد على من يمكنه حقا التعامل مع العمليات المعقدة على السلسلة ، ومن غير المجدي التباهي بها --- في الحقيقة ، أداء هذه النماذج في مشهد DeFi غير متساو ، وأحيانا يبدو أنهما يفجران بعضهما البعض --- ما فائدة مهمة الوكيل ، المفتاح هو ما إذا كان يمكن تسمية العقد بثبات ، وهو حقا فرق كبير في السقف --- يبدو GLM-4.7 جيدا ، لكنني أنتظر لمعرفة ما إذا كان بإمكاني استخدامه بالفعل لتدقيق العقود الذكية ، فهو مثالي للغاية في الوقت الحالي --- في مجال تطبيقات web3 ، يتباهى الجميع بأنهم الأفضل ، ومن يمكنه القيام بذلك ، ولا يتعين عليهم اختباره على السلسلة --- مع وجود مثل هذه الفجوة الكبيرة في إنشاء التعليمات البرمجية على المستوى الهندسي ، كيف يمكنني أن أتوقع من النموذج كتابة عقود موثوقة؟ --- أليس الأمر فقط أن لكل منها نقاط قوته الخاصة ، انظر إلى المشهد واختر الأدوات ، لا يتعين عليك تقسيم واحد أو اثنين أو ثلاثة
شاهد النسخة الأصليةرد0
RektCoastervip
· منذ 23 س
هذه الموجة من GLM حقاً تحتوي على شيء مميز، منطقة Agent حقاً قوية. ومع ذلك، لا يزال يتعين علينا النظر إلى Claude و GPT في swe-bench، الفجوة لا تزال موجودة. داخل السلسلة، كل واحد يمدح نفسه، من يستخدمها يعرف... التدقيق في عقود التمويل اللامركزي لا يزال يحتاج إلى المزيد من النماذج للتحقق المتبادل، نموذج واحد لا يمكنه تناول هذه الوجبة.
شاهد النسخة الأصليةرد0
PriceOracleFairyvip
· منذ 23 س
glm تتقدم بسرعة في مهام الوكيل لكن هاها... دعنا نكون واقعيين، عندما يتعلق الأمر بتنفيذ التحكيم الفعلي على السلسلة ومراجعة العقود؟ لا يزال كلود هو الشخص الذي أثق به مع رأسي الجاف. مرونة الوكيل لا تعني شيئًا إذا لم تتمكن من التقاط نافذة mev مدتها ثانيتان دون تخيل بيانات الاستدعاء 🤔
شاهد النسخة الأصليةرد0
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$3.51Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.51Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.5Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.5Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.49Kعدد الحائزين:1
    0.00%
  • تثبيت