Command Palette
Search for a command to run...
基于自蒸馏的强化学习
基于自蒸馏的强化学习
摘要
大型语言模型在可验证领域(如代码和数学)中正越来越多地通过强化学习进行后续训练。然而,现有的可验证奖励强化学习(RLVR)方法仅基于每次尝试的标量结果奖励进行学习,导致严重的信用分配瓶颈。事实上,许多可验证环境会提供丰富的文本反馈,例如运行时错误信息或评分员的评价,这些反馈能够解释尝试失败的原因。我们首次将这一场景形式化为“基于丰富反馈的强化学习”,并提出自蒸馏策略优化(Self-Distillation Policy Optimization, SDPO)。SDPO无需外部教师模型或显式的奖励模型,即可将分词后的反馈转化为密集的学习信号。SDPO将当前模型在给定反馈条件下的输出视为自教师,将其基于反馈生成的下一词预测结果回传并蒸馏到策略中。通过这种方式,SDPO充分利用了模型在上下文中回溯识别自身错误的能力。在LiveCodeBench v6上的科学推理、工具使用和竞赛编程任务中,SDPO在样本效率和最终准确率方面均显著优于现有的强基准RLVR方法。值得注意的是,即使在仅返回标量反馈的标准RLVR环境中,SDPO也通过将成功轨迹作为失败尝试的隐式反馈,超越了现有基线方法的表现。最后,在测试阶段对单个问题应用SDPO,可显著加速复杂二元奖励任务中的探索过程,仅用三倍于基线的尝试次数,即可达到与“最佳k次采样”或多轮对话方法相当的发现概率。