Command Palette

Search for a command to run...

6 个月前

语义感知奖励在自由形式生成中的开放式R1训练

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

语义感知奖励在自由形式生成中的开放式R1训练

摘要

评估开放型长篇生成具有挑战性,因为很难明确定义好输出与坏输出之间的区别。现有的方法往往忽略了连贯性、风格或相关性等关键方面,或者受到预训练数据的偏见影响,使得开放型长篇生成的评估成为一个尚未充分研究的问题。为了解决这一差距,我们提出了PrefBERT,这是一种用于评估开放型长篇生成并指导其训练的评分模型,在GRPO(Good Response Policy Optimization)中通过为好输出和坏输出提供不同的奖励来引导训练。PrefBERT在两个包含多样长篇风格和李克特量表评分质量的响应评估数据集上进行训练,能够比传统的ROUGE-L和BERTScore指标提供更好的语义奖励反馈。通过包括LLM-as-a-judge(大型语言模型作为评判者)、人类评分和定性分析在内的全面评估,我们展示了经过多句和段落长度响应训练的PrefBERT在各种长篇文章中仍然可靠,并且与GRPO所需的可验证奖励高度一致。人类评价证实,使用PrefBERT作为奖励信号训练策略模型所得到的响应比使用传统指标训练的模型更符合人类偏好。我们的代码可在https://github.com/zli12321/long_form_rl 获取。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语义感知奖励在自由形式生成中的开放式R1训练 | 论文 | HyperAI超神经