Command Palette

Search for a command to run...

3 个月前

并行-R1:通过强化学习实现并行思维

并行-R1:通过强化学习实现并行思维

摘要

并行思维作为一种新兴方法,通过同时探索多种推理路径,显著提升了大型语言模型(LLMs)的推理能力。然而,通过训练激活这一能力仍面临挑战,因为现有方法主要依赖于在合成数据上进行监督微调(SFT),这更倾向于诱导“教师强制模仿”行为,而非鼓励探索与泛化。与之不同,我们提出了Parallel-R1,这是首个面向复杂现实世界推理任务的强化学习(RL)框架,能够实现并行思维行为。该框架采用渐进式课程设计,明确解决了在强化学习中训练并行思维所面临的冷启动问题:首先在较简单任务生成的提示轨迹上进行SFT,以初步培养模型的并行思维能力;随后转入强化学习阶段,在更具挑战性的任务上探索并泛化该能力。在多个数学基准测试(包括MATH、AMC23和AIME)上的实验表明,Parallel-R1成功实现了并行思维,相较于直接在复杂任务上使用强化学习训练的顺序思维模型,准确率提升了8.4%。进一步分析揭示了模型思维模式的显著转变:在早期阶段,模型将并行思维用作探索策略;而在后期阶段,则将其用于多视角验证。尤为重要的是,我们验证了并行思维作为一种中段训练期间的探索性支撑机制——这一临时的探索阶段在强化学习结束后显著提升了模型的性能上限,在AIME25上相较基线模型实现了42.9%的性能提升。我们的模型、数据与代码将开源,地址为:https://github.com/zhengkid/Parallel-R1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
并行-R1:通过强化学习实现并行思维 | 论文 | HyperAI超神经