جوجل تطلق خوارزمية الضغط TurboQuant بدون تدريب، وتدعي أنها تقلل من متطلبات ذاكرة الذكاء الاصطناعي بما لا يقل عن 6 مرات؛ بعد الإعلان، هبطت أسهم الذاكرة بشكل جماعي، لكن المحللين لديهم آراء مختلفة.
(ملخص سابق: تتوقع جوجل إتمام انتقال التشفير الكمومي بحلول عام 2029، قبل الهدف الحكومي بست سنوات، ويجب على صناعة التشفير مواكبة ذلك)
(معلومات إضافية: صحيفة وول ستريت جورنال: ترامب يخطط لتعيين زوكربيرج، هوان رنشن، وإليسون في PCAST لبناء “فريق أمريكا الوطني للذكاء الاصطناعي”)
هل يسبب خوارزمية جديدة انهيار أسهم شركات الذاكرة بالكامل؟ أطلقت جوجل للأبحاث في 25 من الشهر خوارزمية TurboQuant، وتدعي أنها يمكن أن تقلل من حجم ذاكرة التخزين المؤقت للكي-فاي (KV) لنماذج اللغة الكبيرة (LLM) إلى 3 بت فقط، دون فقدان دقة النموذج، مع تقليل استهلاك الذاكرة بما لا يقل عن 6 مرات.
بعد انتشار الخبر، انخفض سهم شركة ميكرون (Micron) خلال التداول بنسبة 6.1% ليغلق عند 382.09 دولار، وهو أدنى إغلاق خلال ثلاثة أسابيع. من ناحية أخرى، انخفضت أسهم سانديك بنسبة 3.5%، وسيجيت بنسبة 2.59%، وويتن إلكترونيكس بنسبة 1.63%، مما أدى إلى انهيار شامل في قطاع الذاكرة.
سوق آسيا اليوم شهد ضغطًا مماثلاً، حيث انخفضت أسهم سامسونج إلكترونيكس بنسبة 3.6% عند الافتتاح، وSK هاليكسا بنسبة 4.5%. المنطق وراء ذلك واضح للمستثمرين: إذا لم تعد نماذج الذكاء الاصطناعي بحاجة إلى قدر كبير من الذاكرة، فإن القوة السعرية التي دعمتها نقص المكونات مؤخرًا قد تتعرض لتهديد كبير.
ذاكرة الكي-فاي (Key-Value Cache) هي الآلية الأساسية التي تسمح لنموذج اللغة الكبير “بتذكر” البيانات المعالجة، حيث تخزن بيانات الانتباه السابقة، مما يسمح للنموذج بتوليد كل رمز دون إعادة حسابه. ومع توسع نافذة السياق، أصبحت ذاكرة الكي-فاي عائقًا رئيسيًا في استهلاك الذاكرة.
تستهدف TurboQuant هذه المشكلة تحديدًا. تشير جوجل إلى أن الطرق التقليدية لتكميم المتجهات (Vector Quantization) تستهلك حوالي 1 إلى 2 بت إضافي لكل قيمة في الذاكرة، لكن TurboQuant تتخلص من هذا الحمل عبر عملية من مرحلتين:
المرحلة الأولى، تستخدم طريقة PolarQuant لتحويل بيانات المتجهات، لتحقيق ضغط عالي الجودة.
المرحلة الثانية، تستخدم خوارزمية Quantized Johnson-Lindenstrauss لإزالة الأخطاء المتبقية.
في اختبارات على وحدة GPU من نوع H100 من نفيديا، أظهرت TurboQuant ذات 4 بت أداءً أسرع بـ8 مرات عند حساب قياسات الانتباه مقارنةً مع التكميم غير، مع تقليل استهلاك ذاكرة الكي-فاي بما لا يقل عن 6 مرات.
الأهم من ذلك، أن هذه الخوارزمية لا تتطلب تدريبًا أو ضبطًا دقيقًا، وتعمل بكفاءة عالية، مما يجعلها مناسبة للتنفيذ المباشر في بيئات الاستدلال والنظم الكبيرة للبحث في المتجهات. وقالت الشركة إن الورقة البحثية ستُنشر رسميًا في مؤتمر ICLR 2026 في أبريل.
لكن ليس الجميع يوافق على أن “نهاية الذاكرة” وشيكة.
بعض المحللين يطرحون مفارقة جيفنيس: عندما تتقدم التكنولوجيا وتخفض تكاليف الموارد، فإن الموارد تصبح أسهل في الوصول، مما يدفع الطلب الكلي للارتفاع. ويعتقد المؤيدون أن إذا استطاعت TurboQuant تقليل حاجز استنتاج الذكاء الاصطناعي بشكل كبير، فسيؤدي ذلك إلى تسريع انتشار نماذج الذكاء الاصطناعي، مما يزيد من الطلب على الذاكرة بشكل أكبر، وليس تقليله.
وفي تقرير لها، صرحت محللة شركة Lynx Equity Strategies بشكل مباشر: “الطريقة التي تشرحها جوجل لن تقلل من الطلب على الذاكرة وذاكرة الفلاش خلال الثلاث إلى الخمس سنوات القادمة، لأن العرض لا يزال محدودًا جدًا.” بناءً عليه، حافظت الشركة على هدف سعر ميكرون عند 700 دولار.