Command Palette

Search for a command to run...

4 天前

基于LLM的强化学习稳定性优化:方法与实践

Chujie Zheng Kai Dang Bowen Yu Mingze Li Huiqiang Jiang Junrong Lin Yuqiong Liu An Yang Jingren Zhou Junyang Lin

基于LLM的强化学习稳定性优化:方法与实践

摘要

本文提出了一种面向大语言模型的强化学习(Reinforcement Learning, RL)新范式,阐明了在何种条件下以及为何可通过代理的词元级(token-level)目标函数来优化真实的序列级(sequence-level)奖励,尤其是在REINFORCE等策略梯度方法中。具体而言,通过一阶近似分析,我们证明该代理目标的有效性仅在训练-推理差异(training-inference discrepancy)与策略僵化(policy staleness)均被最小化时才逐渐成立。这一发现为若干广泛采用的稳定强化学习训练的关键技术提供了理论依据,包括重要性采样校正(importance sampling correction)、裁剪(clipping),以及特别针对混合专家模型(Mixture-of-Experts, MoE)的路由回放(Routing Replay)机制。基于一个300亿参数的MoE模型,经过总计数十万GPU小时的大量实验,我们发现:在在线策略(on-policy)训练中,仅采用重要性采样校正的基本策略梯度算法展现出最高的训练稳定性。当引入离线策略(off-policy)更新以加速收敛时,必须结合裁剪与路由回放机制,才能有效缓解由策略僵化引发的不稳定性问题。值得注意的是,一旦训练过程实现稳定,无论采用何种冷启动初始化方式,持续优化均能获得相当的最终性能表现。我们期望本文所揭示的共性洞见以及所提出的稳定强化学习训练方法论,能够为后续相关研究提供有益参考与实践指导。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供