Command Palette

Search for a command to run...

5 个月前

推理还是记忆?强化学习因数据污染而产生的不可靠结果

推理还是记忆?强化学习因数据污染而产生的不可靠结果

摘要

大型语言模型(LLMs)的推理能力一直是研究的重点。近期的研究通过强化学习(RL)进一步提升了这些能力,许多新方法声称在几乎没有外部监督的情况下取得了显著改进。令人惊讶的是,一些研究表明,随机或错误的奖励信号甚至可以增强推理性能。然而,这些突破主要是在Qwen2.5模型家族上报告的,并在MATH-500、AMC和AIME等知名基准测试中进行了评估,而在其他模型如Llama上未能实现类似的提升,这需要进一步调查。我们的分析表明,尽管Qwen2.5在数学推理方面表现出色,但其在大规模网络语料库上的预训练使其在流行基准测试中容易受到数据污染的影响。因此,从这些基准测试得出的结果可能是不可靠的。为了解决这一问题,我们引入了一个生成器,该生成器可以生成任意长度和难度的完全合成算术问题,从而产生一个我们称为RandomCalculation的干净数据集。利用这些无泄漏的数据集,我们证明只有准确的奖励信号能够持续提升性能,而噪声或错误的信号则不能。我们倡导在未受污染的基准测试和不同模型家族上评估RL方法,以确保结论的可信度。

代码仓库

wumingqi/LLM-Math-Evaluation
官方
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
推理还是记忆?强化学习因数据污染而产生的不可靠结果 | 论文 | HyperAI超神经