Cursor تكشف عن تقنية تحسين استنتاج MoE العامة Warp Decode، وزيادة في الإنتاجية على GPU Blackwell بمقدار 1.84 مرة

BlockBeatNews

وفقًا لمتابعة 1M AI News، نشرت أداة برمجة الذكاء الاصطناعي Cursor تدوينة تقنية تُعرّف بطريقة تسريع الاستدلال لديها باستخدام أسلوب MoE (نموذج الخبراء المختلط) المطوّر داخليًا، والمعروف باسم Warp Decode. تُوجَّه هذه الطريقة إلى سيناريو توليد tokens بكميات صغيرة على وحدات معالجة الرسوميات Nvidia Blackwell GPU، حيث تُقلب الاستراتيجية التقليدية التي تركز على الخبراء إلى استراتيجية تركز على المخرجات: في كل warp داخل الـ GPU (وهي أصغر وحدة جدولة تتكوّن من 32 وحدة معالجة متوازية)، يُكلَّف فقط بحساب قيمة إخراج واحدة، مع اجتياز مستقل لجميع الخبراء الذين تمت عملية توجيههم إليهم وإجراء عملية التجميع (accumulation) مباشرة داخل السجلات، دون الحاجة إلى أي مزامنة عبر الـ warp أو استخدام مخازن وسيطة.

تتكوّن خط أنابيب الاستدلال التقليدي لـ MoE من 8 مراحل، منها 5 مراحل فقط لنقل البيانات لواجهات الخبراء (expert views) دون تنفيذ أي حسابات فعلية. تُحوِّل Warp Decode كامل طبقة حساب MoE إلى نواتين من نوع CUDA kernels فقط، ما يُلغي الخطوات الوسيطة مثل الحشو (padding) والتفريق (dispersing) والدمج (merging)، ويُقلِّل عمليات قراءة/كتابة مخازن وسيطة لكل token بأكثر من 32KB.

على وحدات Nvidia B200 GPU، وبالاختبار العملي باستخدام نموذج على نمط Qwen-3، حققت Warp Decode زيادة قدرها 1.84 مرة في إنتاجية فك الترميز من طرف إلى طرف، كما أن دقة المخرجات مقارنة بالمسار التقليدي اقتربت من معيار FP32 بمقدار 1.4 مرة، وذلك لأن الحساب تم طوال الوقت بدقة BF16/FP32 وتُجنِّب خسائر ناتجة عن التكميم للأحجام/الكمّيات الوسيطة. ومن حيث استغلال عرض النطاق الترددي للعتاد، وعند حجم دفعة (batch size) يساوي 32، بلغ معدل الإنتاجية المستمر 3.95 TB/s، أي نحو 58% من أقصى عرض نطاق ترددي للـ B200 (6.8 TB/s). يُسرِّع هذا التحسين مباشرةً عملية تطوير نموذج برمجة Cursor الخاص Composer وتيرة التكرار في البحث والتطوير وإيقاع إصدار الإصدارات.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات