根據 Beating,Baseten 研究團隊揭示 Still,一種 KV 快取壓縮方法;它在單次前向傳播中即可達到高達 200 倍的壓縮,且不需要線上最佳化或梯度更新。Still 結合輕量級 Perceiver 壓縮器——其規模約為基礎模型參數的 1%——並將其整合到每個 Transformer 層中,透過對完整 KV 快取執行跨注意力,直接產生壓縮後的快取。在 Qwen 與 Gemma 模型上進行測試,涵蓋 8k 到 64k 的上下文視窗、壓縮率達 8 倍到 200 倍,Still 在維持高準確度的同時,並在 RULER 基準測試中超越 SnapKV、H2O 和 KV-Distill 等可比方法。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。