HyperAI

摘要

近期在长链思维（Long Chain-of-Thought, CoT）推理模型方面的进展提高了其在复杂任务上的表现，但这些模型存在过度思考的问题，会生成冗余的推理步骤，尤其是在处理简单问题时。本文重新审视了长链和短链CoT模型的推理模式，观察到短链CoT模式能够高效地提供简洁的推理，而长链CoT模式则在短链CoT模式难以应对的挑战性场景中表现出色。为了使模型能够充分利用这两种模式的优势，我们提出了一种无问题微调（Question-Free Fine-Tuning, QFFT）的方法，该方法在训练过程中移除了输入问题，仅从长链CoT响应中学习。这一方法使得模型能够自适应地运用两种推理模式：优先采用短链CoT模式，并仅在必要时激活长链CoT模式。在多个数学数据集上的实验表明，QFFT将平均响应长度减少了超过50%，同时实现了与监督微调（Supervised Fine-Tuning, SFT）相当的性能。此外，在噪声环境、领域外和资源有限的情况下，QFFT的表现优于SFT。

摘要

QFFT，无问题微调以适应推理

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

QFFT，无问题微调以适应推理

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

QFFT，无问题微调以适应推理

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

QFFT，无问题微调以适应推理

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters