HyperAI超神经

6 个月前

信心即一切：语言模型的少样本强化学习微调

查看论文详情

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

信心即一切：语言模型的少样本强化学习微调

摘要

大型语言模型（LLMs）在推理方面表现出色，然而训练后的调优对于使其行为与任务目标对齐仍然至关重要。现有的强化学习（RL）方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了一种通过自信心进行强化学习的方法（Reinforcement Learning via Self-Confidence, RLSC），该方法利用模型自身的置信度作为奖励信号，从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B模型，仅需每题16个样本和10或20个训练步骤，即可在AIME2024上提高准确率13.4%，在MATH500上提高21.2%，在Minerva Math上提高21.7%，在Olympiadbench上提高20.8%，以及在AMC23上提高9.7%。RLSC提供了一种简单且可扩展的推理模型后训练方法，只需要少量样本和无监督指导。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

6 个月前

信心即一切：语言模型的少样本强化学习微调

查看论文详情

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

信心即一切：语言模型的少样本强化学习微调

摘要

大型语言模型（LLMs）在推理方面表现出色，然而训练后的调优对于使其行为与任务目标对齐仍然至关重要。现有的强化学习（RL）方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了一种通过自信心进行强化学习的方法（Reinforcement Learning via Self-Confidence, RLSC），该方法利用模型自身的置信度作为奖励信号，从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B模型，仅需每题16个样本和10或20个训练步骤，即可在AIME2024上提高准确率13.4%，在MATH500上提高21.2%，在Minerva Math上提高21.7%，在Olympiadbench上提高20.8%，以及在AMC23上提高9.7%。RLSC提供了一种简单且可扩展的推理模型后训练方法，只需要少量样本和无监督指导。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供