Command Palette

Search for a command to run...

3 个月前

LAVa:基于层级的KV缓存淘汰与动态预算分配

Yiqun Shen Song Yuan Zhengze Zhang Xiaoliang Wang Daxin Jiang Nguyen Cam-Tu

LAVa:基于层级的KV缓存淘汰与动态预算分配

摘要

KV缓存常用于加速长上下文场景下的大语言模型(LLM)推理,但其高昂的内存开销促使人们迫切需要对缓存进行压缩。然而,现有的压缩方法大多依赖启发式策略,缺乏动态的内存预算分配机制。为解决这一局限性,我们提出了一种统一的缓存压缩框架,其核心思想是通过最小化Transformer残差流中的信息损失来实现高效压缩。在此基础上,我们分析了各层注意力输出的信息损失,并提出了一种新的度量标准,用于跨注意力头比较缓存条目,从而实现基于层的动态头级预算分配。此外,通过对比跨层信息,我们进一步实现了动态的层级预算分配。LAVa是首个统一的缓存淘汰与动态预算分配策略,与以往方法不同,它无需依赖训练过程,也无需组合多种策略。在LongBench、Needle-In-A-Haystack、Ruler和InfiniteBench等基准测试中的实验结果表明,该方法具有显著优势。此外,我们的实验揭示了一个新发现:在生成类任务(如代码补全)中,动态层级预算至关重要;而在抽取类任务(如抽取式问答)中,动态头级预算则起关键作用。作为一项完全动态的压缩方法,LAVa在各类任务中均能稳定保持最优性能。相关代码已开源,可通过以下链接获取:https://url

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LAVa:基于层级的KV缓存淘汰与动态预算分配 | 论文 | HyperAI超神经