Command Palette

Search for a command to run...

6 个月前

QFFT,无问题微调以适应推理

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

QFFT,无问题微调以适应推理

摘要

近期在长链思维(Long Chain-of-Thought, CoT)推理模型方面的进展提高了其在复杂任务上的表现,但这些模型存在过度思考的问题,会生成冗余的推理步骤,尤其是在处理简单问题时。本文重新审视了长链和短链CoT模型的推理模式,观察到短链CoT模式能够高效地提供简洁的推理,而长链CoT模式则在短链CoT模式难以应对的挑战性场景中表现出色。为了使模型能够充分利用这两种模式的优势,我们提出了一种无问题微调(Question-Free Fine-Tuning, QFFT)的方法,该方法在训练过程中移除了输入问题,仅从长链CoT响应中学习。这一方法使得模型能够自适应地运用两种推理模式:优先采用短链CoT模式,并仅在必要时激活长链CoT模式。在多个数学数据集上的实验表明,QFFT将平均响应长度减少了超过50%,同时实现了与监督微调(Supervised Fine-Tuning, SFT)相当的性能。此外,在噪声环境、领域外和资源有限的情况下,QFFT的表现优于SFT。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
QFFT,无问题微调以适应推理 | 论文 | HyperAI超神经