HyperAI

摘要

我们提出 DuPO，一种基于双重学习的偏好优化框架，通过广义对偶性生成无需标注的反馈。DuPO 解决了两个关键局限性：强化学习结合可验证奖励（RLVR）方法对昂贵标注的依赖性，以及其仅适用于可验证任务的限制；同时克服了传统双重学习仅限于严格对偶任务对（如翻译与反向翻译）的约束。具体而言，DuPO 将原始任务的输入分解为已知与未知两部分，并构建其对偶任务，利用原始任务的输出与已知信息（例如，通过反转数学求解过程以恢复隐藏变量）来重建未知部分，从而将适用范围拓展至非可逆任务。该重建结果的质量被用作自监督奖励信号，用于优化原始任务，与大语言模型（LLM）通过单一模型实例化两个任务的能力相协同。实证结果表明，DuPO 在多种任务上均取得显著提升：在756个翻译方向上，平均提升2.13点COMET得分；在三个挑战性数学推理基准上，平均准确率提升6.4个百分点；作为推理阶段的重排序器使用时，性能提升达9.3点（以增加计算开销换取更高精度）。这些成果表明，DuPO 是一种可扩展、通用且无需标注的大型语言模型优化新范式。

摘要

DuPO：通过双偏好优化实现可靠的LLM自我验证

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

摘要

用 AI 构建 AI

Hyper Newsletters

DuPO：通过双偏好优化实现可靠的LLM自我验证

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

DuPO：通过双偏好优化实现可靠的LLM自我验证

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

DuPO：通过双偏好优化实现可靠的LLM自我验证

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

摘要

用 AI 构建 AI

Hyper Newsletters