Gate Newsの報告によると、2023年3月25日、Googleリサーチは量子圧縮アルゴリズムTurboQuantを発表しました。これにより、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減します。訓練や微調整は不要で、モデルの精度も損ないません。4ビットモードでは、NVIDIA H100 GPU上での注意力計算速度が32ビット未量子化の基準と比べて最大8倍向上します。研究チームはLongBench、Needle In A Haystack、ZeroSCROLLSなどの長文コンテキストベンチマークでGemmaやMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の結果を示しました。このアルゴリズムは二つのサブアルゴリズムから構成されます。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残留誤差を補正します。この研究はGoogleリサーチのAmir Zandiehと副社長兼GoogleフェローのVahab Mirrokniが主導し、韓国KAISTやニューヨーク大学と協力して行われ、2026年のICLRで発表される予定です。Googleは、この技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。