Google เปิดตัว TurboQuant อัลกอริธึมใหม่: สามารถอัดแรงความต้องการหน่วยความจำ AI ได้ 6 เท่า หุ้นหน่วยความจำร่วมกันปรับตัวลดลง

動區BlockTempo

กูเกิลเปิดตัวอัลกอริทึมบีบอัด TurboQuant ที่ไม่ต้องการการฝึกสอน โดยอ้างว่าสามารถลดความต้องการหน่วยความจำของ AI ลงได้อย่างน้อย 6 เท่า ทันทีที่ประกาศออกมา หุ้นกลุ่มหน่วยความจำร่วงลงอย่างรวดเร็ว แต่บรรดานักวิเคราะห์มีมุมมองที่แตกต่างกัน
(ข้อมูลเบื้องต้น: กูเกิลตั้งเป้าจะย้ายไปใช้รหัสควอนตัมหลังจากปี 2029 ซึ่งเร็วกว่าที่รัฐบาลตั้งเป้าไว้ 6 ปี อุตสาหกรรมการเข้ารหัสต้องตามให้ทัน)
(ข้อมูลเสริม: วอลล์สตรีทเจอร์นัล: ทรัมป์วางแผนให้บารัค โอบามา ฮาร์ดแวร์ของฮิวเลตต์-แพคการ์ด และ อีริสัน เข้าร่วมคณะกรรมการ PCAST เพื่อสร้าง “ทีมชาติ AI ของอเมริกา”)

อัลกอริทึมใหม่ตัวนี้ ทำให้หุ้นหน่วยความจำร่วงลงอย่างหนัก? เมื่อวันที่ 25 กูเกิลรีเสิร์ชได้เปิดตัวอัลกอริทึมบีบอัด TurboQuant อย่างเป็นทางการ โดยอ้างว่าสามารถทำให้ KV cache ของโมเดลภาษาใหญ่ (LLM) ถูกควอนตายซ์เป็นเพียง 3 บิต และไม่สูญเสียความแม่นยำของโมเดล รวมถึงลดการใช้หน่วยความจำอย่างน้อย 6 เท่า

หลังจากข่าวออกไป หุ้นบริษัทหน่วยความจำยักษ์อย่างไมครอน (Micron) ร่วงลงสูงสุด 6.1% ในช่วงเช้า ปิดตลาดที่ 382.09 ดอลลาร์ ซึ่งเป็นระดับต่ำสุดในรอบสามสัปดาห์ ในขณะเดียวกัน Sandisk ร่วง 3.5%, Seagate ร่วง 2.59%, Western Digital ร่วง 1.63% กลุ่มหน่วยความจำทั้งหมดล้มเหลว

ตลาดเอเชียวันนี้ก็ได้รับแรงกดดันเช่นกัน ซัมซุงดีไซน์ร่วงเปิดตลาด 3.6% SK Hynix ร่วง 4.5% นักลงทุนมองตรงไปตรงมา: หากโมเดล AI ไม่ต้องการหน่วยความจำมากขนาดนี้ ความสามารถในการตั้งราคาที่แข็งแกร่งซึ่งเคยพึ่งพาการขาดแคลนชิ้นส่วนในช่วงที่ผ่านมา อาจจะสั่นคลอนในที่สุด

วิเคราะห์เทคโนโลยี TurboQuant: ลดความผิดพลาดเป็นสองขั้นตอน เร็วขึ้น 8 เท่า

KV cache (Key-Value Cache) เป็นกลไกหลักที่ทำให้ LLM “จำ” ข้อมูลที่เคยประมวลผลไว้ได้ โดยเก็บข้อมูลความสนใจที่เคยคำนวณไว้ก่อนหน้านี้ เพื่อให้โมเดลสามารถสร้าง token ต่อไปโดยไม่ต้องคำนวณซ้ำ แต่เมื่อบริบทของโมเดลขยายออกอย่างต่อเนื่อง KV cache ก็กลายเป็นอุปสรรคสำคัญด้านหน่วยความจำ

TurboQuant มุ่งแก้ปัญหานี้โดยเฉพาะ กูเกิลชี้ว่า วิธีการควอนตายซ์เวกเตอร์แบบดั้งเดิมจะสร้างภาระเพิ่มเติมประมาณ 1 ถึง 2 บิตต่อค่าบนหน่วยความจำ ขณะที่ TurboQuant ใช้กระบวนการสองขั้นตอนเพื่อกำจัดภาระนี้อย่างสิ้นเชิง:

ขั้นตอนแรก ใช้วิธี PolarQuant ในการหมุนเวกเตอร์ข้อมูล เพื่อบีบอัดคุณภาพสูง

ขั้นตอนที่สอง ใช้อัลกอริทึม Johnson-Lindenstrauss ควอนตายซ์แบบควอนตายซ์ เพื่อกำจัดความผิดพลาดที่เหลืออยู่

ในการทดสอบบน GPU ของ NVIDIA H100 TurboQuant ที่ใช้ 4 บิต มีประสิทธิภาพในการคำนวณความเข้มของ attention สูงขึ้น 8 เท่าเมื่อเทียบกับเวกเตอร์ 32 บิตที่ไม่ได้ควอนตายซ์ และการใช้หน่วยความจำ KV cache ก็ถูกบีบอัดลดลงอย่างน้อย 6 เท่า

สิ่งที่สำคัญคือ อัลกอริทึมนี้ไม่ต้องการการฝึกสอนหรือการปรับแต่งใด ๆ ในระหว่างการใช้งาน ทำให้มีต้นทุนเพิ่มเติมต่ำมาก เหมาะสำหรับนำไปใช้งานในระบบ inference จริงจังและระบบค้นหาเวกเตอร์ขนาดใหญ่ ทางกูเกิลระบุว่าบทความวิจัยจะถูกเผยแพร่ในงาน ICLR 2026 ในเดือนเมษายน

ปรัชญาเจฟเฟอร์สัน: ความต้องการหน่วยความจำอาจเพิ่มขึ้นแทนที่จะลดลง?

อย่างไรก็ตาม ไม่ใช่ทุกคนที่เห็นด้วยกับแนวคิด “วันสิ้นสุดของหน่วยความจำ”

นักวิเคราะห์บางคนหยิบปรัชญาเจฟเฟอร์สันขึ้นมาอ้างว่า เมื่อเทคโนโลยีลดต้นทุนการใช้ทรัพยากรแล้ว ทรัพยากรจะกลายเป็นสิ่งที่หาได้ง่ายขึ้น ส่งผลให้ความต้องการโดยรวมเพิ่มขึ้น ผู้สนับสนุนเชื่อว่า หาก TurboQuant สามารถลดอุปสรรคในการใช้งาน AI ได้อย่างมาก ก็จะเร่งให้โมเดล AI แพร่หลายมากขึ้น ซึ่งในที่สุดจะทำให้ความต้องการหน่วยความจำเพิ่มขึ้นมากกว่าเดิม ไม่ใช่ลดลง

นักวิเคราะห์จาก Lynx Equity Strategies ระบุในรายงานว่า “วิธีการที่กูเกิลอธิบายไว้ในตอนนี้ จะไม่ลดความต้องการหน่วยความจำและหน่วยความจำแฟลชในอีก 3 ถึง 5 ปีข้างหน้า เพราะอุปทานยังคงมีข้อจำกัดอย่างรุนแรง” ด้วยเหตุนี้ บริษัทจึงยังคงเป้าหมายราคาหุ้นไมครอนที่ 700 ดอลลาร์ต่อหุ้นไว้เช่นเดิม

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น