Google releases TurboQuant algorithm: 3-bit KV cache quantization with no precision loss, inference speed boosted up to 8 times

Gate Newsの報告によると、2023年3月25日、Googleリサーチは量子圧縮アルゴリズムTurboQuantを発表しました。これにより、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減します。訓練や微調整は不要で、モデルの精度も損ないません。4ビットモードでは、NVIDIA H100 GPU上での注意力計算速度が32ビット未量子化の基準と比べて最大8倍向上します。研究チームはLongBench、Needle In A Haystack、ZeroSCROLLSなどの長文コンテキストベンチマークでGemmaやMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の結果を示しました。このアルゴリズムは二つのサブアルゴリズムから構成されます。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残留誤差を補正します。この研究はGoogleリサーチのAmir Zandiehと副社長兼GoogleフェローのVahab Mirrokniが主導し、韓国KAISTやニューヨーク大学と協力して行われ、2026年のICLRで発表される予定です。Googleは、この技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし