Command Palette

Search for a command to run...

3 个月前

分享即关爱:基于集体强化学习经验共享的高效LM后训练

分享即关爱:基于集体强化学习经验共享的高效LM后训练

摘要

通过强化学习(RL)对语言模型(LMs)进行后训练,可在无需监督微调的情况下提升其复杂推理能力,DeepSeek-R1-Zero 已经验证了这一点。然而,将强化学习有效应用于语言模型需要大规模并行化以扩展推理能力,这带来了非 trivial 的技术挑战(如延迟、内存占用和系统可靠性),同时伴随不断增长的财务成本。为此,我们提出了 Swarm sAmpling Policy Optimization(SAPO),一种完全去中心化且异步的强化学习后训练算法。SAPO 针对异构计算节点组成的去中心化网络而设计,每个节点自主管理自身的策略模型,同时与其他节点“共享”轨迹(rollouts);该算法不依赖于对延迟、模型同质性或硬件配置的显式假设,节点也可按需独立运行。因此,该算法在扩展强化学习后训练时避免了常见的性能瓶颈,同时还能(甚至鼓励)实现新的可能性。通过在全网范围内“共享”的轨迹进行采样,SAPO 能够使“顿悟时刻”(Aha moments)在节点间传播,从而加速学习过程的启动与演进。本文实验表明,SAPO 在受控环境中实现了最高达 94% 的累积奖励提升。此外,我们还分享了在由 Gensyn 社区成员贡献的数千节点网络上进行测试所获得的宝贵经验——这些成员在多样化的硬件平台和模型上运行该算法,参与了一次开源演示。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分享即关爱:基于集体强化学习经验共享的高效LM后训练 | 论文 | HyperAI超神经