突发:谷歌推出TurboQuant,这是一项旨在在不损失的情况下压缩语言模型工作内存的技术。


如果它像研究所示那样进入生产阶段,可能会缓解当前人工智能的一个主要瓶颈:处理长上下文、代理和庞大推理工作负载所需的内存成本和稀缺性。
TurboQuant旨在将KV缓存的使用减少多达六倍,并将芯片上的处理速度提升多达八倍,而不会丢失数据。
查看原文
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论