Command Palette

Search for a command to run...

6 个月前

信心即一切:语言模型的少样本强化学习微调

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

信心即一切:语言模型的少样本强化学习微调

摘要

大型语言模型(LLMs)在推理方面表现出色,然而训练后的调优对于使其行为与任务目标对齐仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了一种通过自信心进行强化学习的方法(Reinforcement Learning via Self-Confidence, RLSC),该方法利用模型自身的置信度作为奖励信号,从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B模型,仅需每题16个样本和10或20个训练步骤,即可在AIME2024上提高准确率13.4%,在MATH500上提高21.2%,在Minerva Math上提高21.7%,在Olympiadbench上提高20.8%,以及在AMC23上提高9.7%。RLSC提供了一种简单且可扩展的推理模型后训练方法,只需要少量样本和无监督指导。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供