HyperAIHyperAI

Command Palette

Search for a command to run...

UNA 对齐框架

日期

1 年前

UNA 全称为 Unified Alignment Framework,是由来自 Salesforce 和厦门大学的研究团队提出的一个新型对齐框架。相关论文成果为「UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function」。

UNA 的核心思想是通过一个广义的隐式奖励函数来统一不同的对齐技术,包括 RLHF/PPO 、 DPO 和 KTO 。这种方法的创新之处在于,它将这些对齐技术融合为一个监督学习问题,即最小化隐式奖励和显式奖励之间的差异。

UNA 的提出是为了解决现有对齐技术的一些局限性。例如,RLHF 需要分别训练奖励模型和策略,这个过程复杂、耗时、内存密集且在训练过程中不稳定。而 DPO 虽然提出了一个最优策略和奖励之间的映射关系,简化了 RLHF 的训练过程,但它不能充分利用奖励模型,且仅限于成对偏好数据。 UNA 通过数学证明,给定经典的 RLHF 目标,最优策略可以通过一个广义的隐式奖励函数来诱导。这个新的映射关系使得 UNA 能够简化 RLHF/PPO,同时稳定、加速并减少 RL 微调过程的内存负担,并且能够适应不同类型的反馈,包括成对、二元和标量反馈。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UNA 对齐框架 | Wiki | HyperAI超神经