HyperAI超神经

5 个月前

KV缓存引导以诱导小型语言模型的推理能力

查看论文详情

Max Belitsky Dawid J. Kopiczko Michael Dorkenwald M. Jehanzeb Mirza Cees G. M. Snoek Yuki M. Asano

KV缓存引导以诱导小型语言模型的推理能力

摘要

我们提出了一种称为缓存引导（cache steering）的轻量级方法，通过一次性干预直接作用于键值缓存来隐式地调整语言模型的行为。为了验证其有效性，我们将缓存引导应用于小型语言模型中，以诱导其进行链式思维推理。我们的方法利用了由GPT-4o生成的推理轨迹来构建引导向量，从而在无需微调或提示修改的情况下，使模型行为更加倾向于显式的多步骤推理。实验评估在多种推理基准测试中表明，缓存引导不仅改善了模型推理的定性结构，还提高了定量任务性能。与需要连续干预的先前激活引导技术相比，我们的单次缓存引导在超参数稳定性、推理时间效率和集成简便性方面具有显著优势，使其成为一种更为稳健和实用的受控生成解决方案。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

5 个月前

KV缓存引导以诱导小型语言模型的推理能力

查看论文详情

Max Belitsky Dawid J. Kopiczko Michael Dorkenwald M. Jehanzeb Mirza Cees G. M. Snoek Yuki M. Asano

KV缓存引导以诱导小型语言模型的推理能力

摘要

我们提出了一种称为缓存引导（cache steering）的轻量级方法，通过一次性干预直接作用于键值缓存来隐式地调整语言模型的行为。为了验证其有效性，我们将缓存引导应用于小型语言模型中，以诱导其进行链式思维推理。我们的方法利用了由GPT-4o生成的推理轨迹来构建引导向量，从而在无需微调或提示修改的情况下，使模型行为更加倾向于显式的多步骤推理。实验评估在多种推理基准测试中表明，缓存引导不仅改善了模型推理的定性结构，还提高了定量任务性能。与需要连续干预的先前激活引导技术相比，我们的单次缓存引导在超参数稳定性、推理时间效率和集成简便性方面具有显著优势，使其成为一种更为稳健和实用的受控生成解决方案。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供