Command Palette

Search for a command to run...

4 个月前

DuPO:通过双偏好优化实现可靠的LLM自我验证

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

DuPO:通过双偏好优化实现可靠的LLM自我验证

摘要

我们提出 DuPO,一种基于双重学习的偏好优化框架,通过广义对偶性生成无需标注的反馈。DuPO 解决了两个关键局限性:强化学习结合可验证奖励(RLVR)方法对昂贵标注的依赖性,以及其仅适用于可验证任务的限制;同时克服了传统双重学习仅限于严格对偶任务对(如翻译与反向翻译)的约束。具体而言,DuPO 将原始任务的输入分解为已知与未知两部分,并构建其对偶任务,利用原始任务的输出与已知信息(例如,通过反转数学求解过程以恢复隐藏变量)来重建未知部分,从而将适用范围拓展至非可逆任务。该重建结果的质量被用作自监督奖励信号,用于优化原始任务,与大语言模型(LLM)通过单一模型实例化两个任务的能力相协同。实证结果表明,DuPO 在多种任务上均取得显著提升:在756个翻译方向上,平均提升2.13点COMET得分;在三个挑战性数学推理基准上,平均准确率提升6.4个百分点;作为推理阶段的重排序器使用时,性能提升达9.3点(以增加计算开销换取更高精度)。这些成果表明,DuPO 是一种可扩展、通用且无需标注的大型语言模型优化新范式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DuPO:通过双偏好优化实现可靠的LLM自我验证 | 论文 | HyperAI超神经