Command Palette

Search for a command to run...

5 个月前

预训练策略判别器是通用奖励模型

预训练策略判别器是通用奖励模型

摘要

我们提出了一种新颖的奖励建模视角,将其表述为一种策略区分器,该区分器量化了两个策略之间的差异以生成奖励信号,引导训练策略向具有期望行为的目标策略靠拢。基于这一概念性洞察,我们提出了一种可扩展的预训练方法——策略区分学习(Policy Discriminative Learning, POLAR),该方法训练一个奖励模型(RM)来识别相同的策略并区分不同的策略。与依赖绝对偏好的传统奖励建模方法不同,POLAR捕捉了一个策略与任意目标策略之间的相对差异,这是一种适合建模通用排序关系的可扩展、高层次优化目标。利用POLAR预训练范式,我们展示了一系列参数规模从1.8亿到7亿的RM。实证结果表明,POLAR显著优于传统的非预训练方法,大幅提升了RM的性能。例如,在STEM任务中,POLAR-7B将偏好准确性从54.8%提高到了81.0%,在创意写作任务中则从57.9%提高到了85.5%,相比现有最佳基线(SOTA baselines)均有显著提升。此外,在使用强化微调(Reinforcement Fine-tuning, RFT)进行强化学习人类反馈(RLHF)时,POLAR展示了强大的泛化能力,提供了可靠的奖励信号,并显著增强了策略性能——在20个基准测试中,将LLaMa3.1-8B的平均表现从47.36%提升至56.33%,Qwen2.5-32B的表现则从64.49%提升至70.47%。此外,扩展实验揭示了计算量与性能之间存在明显的幂律关系,线性相关系数接近0.99。这些令人印象深刻的表现、强大的泛化能力和良好的扩展特性表明,POLAR是开发通用且强大的奖励模型的一个有前景的方向。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供