Google выпустил алгоритм TurboQuant: 3-битное квантование KV-кэша без потери точности, скорость вывода повышается до 8 раз

Gate News сообщает, 25 марта, исследовательский институт Google опубликовал алгоритм квантованного сжатия TurboQuant, который позволяет сжимать KV-кэш больших языковых моделей до 3 бит, сокращая использование памяти как минимум в 6 раз, при этом не требуя обучения или донастройки и не теряя точности модели. В режиме 4 бита скорость вычисления внимания на GPU NVIDIA H100 выше по сравнению с базовым 32-битным не квантованным вариантом до 8 раз. Исследовательская команда проверила эффективность TurboQuant на длинных контекстных бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS с моделями Gemma и Mistral, и во всех тестах достигла лучших результатов. Алгоритм состоит из двух подсистем: PolarQuant, который устраняет память, необходимую для традиционной квантования, с помощью преобразования в полярные координаты, и QJL, использующий всего 1 бит для коррекции остаточной ошибки. Исследование возглавили Амир Зандиех из Google Research и вице-президент и Fellow Google Вахаб Миракни, совместно с KAIST в Южной Корее и Нью-Йоркским университетом, и оно будет опубликовано на ICLR 2026. Google заявил, что одним из основных применений этой технологии является устранение узких мест в KV-кэше моделей типа Gemini.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев