HyperAI

摘要

KV缓存常用于加速长上下文场景下的大语言模型（LLM）推理，但其高昂的内存开销促使人们迫切需要对缓存进行压缩。然而，现有的压缩方法大多依赖启发式策略，缺乏动态的内存预算分配机制。为解决这一局限性，我们提出了一种统一的缓存压缩框架，其核心思想是通过最小化Transformer残差流中的信息损失来实现高效压缩。在此基础上，我们分析了各层注意力输出的信息损失，并提出了一种新的度量标准，用于跨注意力头比较缓存条目，从而实现基于层的动态头级预算分配。此外，通过对比跨层信息，我们进一步实现了动态的层级预算分配。LAVa是首个统一的缓存淘汰与动态预算分配策略，与以往方法不同，它无需依赖训练过程，也无需组合多种策略。在LongBench、Needle-In-A-Haystack、Ruler和InfiniteBench等基准测试中的实验结果表明，该方法具有显著优势。此外，我们的实验揭示了一个新发现：在生成类任务（如代码补全）中，动态层级预算至关重要；而在抽取类任务（如抽取式问答）中，动态头级预算则起关键作用。作为一项完全动态的压缩方法，LAVa在各类任务中均能稳定保持最优性能。相关代码已开源，可通过以下链接获取：https://url。

摘要

LAVa：基于层级的KV缓存淘汰与动态预算分配

Yiqun Shen Song Yuan Zhengze Zhang Xiaoliang Wang Daxin Jiang Nguyen Cam-Tu

摘要

用 AI 构建 AI

Hyper Newsletters

LAVa：基于层级的KV缓存淘汰与动态预算分配

Yiqun Shen Song Yuan Zhengze Zhang Xiaoliang Wang Daxin Jiang Nguyen Cam-Tu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

LAVa：基于层级的KV缓存淘汰与动态预算分配

Yiqun Shen Song Yuan Zhengze Zhang Xiaoliang Wang Daxin Jiang Nguyen Cam-Tu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

LAVa：基于层级的KV缓存淘汰与动态预算分配

Yiqun Shen Song Yuan Zhengze Zhang Xiaoliang Wang Daxin Jiang Nguyen Cam-Tu

摘要

用 AI 构建 AI

Hyper Newsletters