Command Palette

Search for a command to run...

5 个月前

基于人类反馈的强化学习训练有益且无害的助手

Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen Nova DasSarma et al

基于人类反馈的强化学习训练有益且无害的助手

摘要

我们采用偏好建模与基于人类反馈的强化学习(RLHF)方法,对语言模型进行微调,使其能够作为有益且无害的助手。研究发现,这种对齐训练显著提升了模型在几乎所有自然语言处理评估任务中的表现,并且与训练特定技能(如Python编程和摘要生成)完全兼容。我们探索了一种迭代式在线训练模式,即每周利用新的人类反馈数据更新偏好模型和强化学习策略,从而高效地优化我们的数据集与模型。最后,我们研究了RLHF训练的鲁棒性,发现策略与其初始状态之间的KL散度的平方根与强化学习奖励之间存在近似线性关系。除主要结果外,我们还开展了多项辅助分析,包括校准性评估、多目标权衡、以及使用分布外检测(OOD detection)的方法;同时,我们将我们的模型与人类写作者进行了对比,并展示了基于近期相关研究中出现的提示词生成的模型输出样例。

代码仓库

miaoyuchun/inform
pytorch
GitHub 中提及
ganjinzero/rrhf
pytorch
GitHub 中提及
anthropics/hh-rlhf
官方
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供