Google merilis algoritma kompresi TurboQuant tanpa perlu pelatihan, yang diklaim dapat mengurangi kebutuhan memori AI setidaknya 6 kali lipat; begitu berita ini muncul, saham memori langsung jatuh, tetapi para analis memiliki pandangan berbeda.
(Latar belakang: Google memperkirakan akan menyelesaikan migrasi kriptografi kuantum pada tahun 2029, enam tahun lebih awal dari target pemerintah, industri enkripsi harus mengikuti)
(Tambahan latar belakang: Wall Street Journal: Trump berencana menugaskan Zuckerberg, Huang Renxun, dan Ellison bergabung dengan PCAST, membangun “Tim Nasional AI Amerika”)
Sebuah algoritma baru, membuat saham memori anjlok secara keseluruhan? Google Research secara resmi merilis TurboQuant pada tanggal 25, yang diklaim mampu mengkuantisasi cache KV dari model bahasa besar (LLM) hingga hanya 3 bit, tanpa kehilangan akurasi model, dan penggunaan memori setidaknya 6 kali lipat lebih efisien.
Setelah berita ini tersebar, raksasa memori Micron sempat turun sebesar 6,1% selama perdagangan hari itu, dan ditutup di angka 382,09 dolar AS, menandai harga penutupan terendah dalam tiga minggu. Di sisi lain, Sandisk turun 3,5%, Seagate turun 2,59%, dan Western Digital turun 1,63%, seluruh sektor memori mengalami keruntuhan.
Pasar Asia hari ini juga mengalami tekanan yang sama, Samsung Electronics dibuka dengan penurunan 3,6%, SK Hynix turun 4,5%. Logika para investor sangat langsung: jika model AI tidak lagi membutuhkan memori sebanyak itu, kekuatan penetapan harga yang selama ini didukung oleh kekurangan komponen mungkin akan goyah.
Cache Key-Value (KV) adalah mekanisme inti yang memungkinkan LLM “mengingat” data yang telah diproses, menyimpan data perhatian sebelumnya, sehingga model tidak perlu menghitung ulang saat menghasilkan setiap token. Namun, seiring dengan perluasan jendela konteks, cache KV menjadi hambatan utama dalam penggunaan memori.
TurboQuant menargetkan masalah ini. Google menunjukkan bahwa metode kuantisasi vektor tradisional akan menimbulkan overhead sekitar 1 hingga 2 bit per nilai dalam memori, sementara TurboQuant melalui proses dua tahap secara menyeluruh menghilangkan beban ini:
Tahap pertama, menggunakan metode PolarQuant untuk memutar vektor data, mencapai kompresi berkualitas tinggi
Tahap kedua, menggunakan algoritma Johnson-Lindenstrauss yang dikuantisasi untuk menghilangkan sisa kesalahan
Dalam pengujian benchmark GPU H100 dari Nvidia, TurboQuant 4-bit menunjukkan peningkatan performa delapan kali lipat dalam pengukuran perhatian dibandingkan dengan kunci 32-bit yang tidak dikuantisasi, dan penggunaan memori cache KV dikompresi setidaknya 6 kali lipat.
Yang lebih penting lagi, algoritma ini tidak memerlukan pelatihan atau penyesuaian ulang apa pun, dengan overhead saat eksekusi yang sangat rendah, cocok untuk langsung diterapkan dalam lingkungan inferensi resmi dan sistem pencarian vektor skala besar. Mereka menyatakan bahwa makalah terkait akan dipublikasikan secara resmi pada konferensi “ICLR 2026” bulan April.
Namun, tidak semua orang setuju dengan narasi “kiamat memori.”
Beberapa analis mengangkat paradoks Jevons: ketika kemajuan teknologi menurunkan biaya penggunaan sumber daya, justru sumber daya tersebut menjadi lebih mudah diakses dan meningkatkan permintaan secara keseluruhan. Pendukung berpendapat bahwa jika TurboQuant benar-benar mampu secara signifikan menurunkan ambang batas inferensi AI, hal ini akan mempercepat adopsi model AI secara luas, dan akhirnya justru mendorong kebutuhan memori yang lebih besar, bukan menguranginya.
Seorang analis dari Lynx Equity Strategies secara langsung menyatakan, “Metode yang dijelaskan Google ini dalam 3 sampai 5 tahun ke depan hampir tidak akan mengurangi kebutuhan akan memori dan memori flash, karena pasokan tetap sangat terbatas.” Oleh karena itu, lembaga ini mempertahankan target harga Micron di angka 700 dolar AS.