Command Palette

Search for a command to run...

5 个月前

RE-IMAGINE:用于推理评估的符号基准合成

RE-IMAGINE:用于推理评估的符号基准合成

摘要

近期,大型语言模型(LLMs)在推理基准测试中报告了高准确性。然而,目前尚不清楚这些观察到的结果是源于真正的推理能力还是对训练集的统计回忆。受因果阶梯(Pearl, 2009)及其三个层次(关联、干预和反事实)的启发,本文引入了RE-IMAGINE框架,用于表征大型语言模型中的推理能力层次结构,并提供了一个自动化管道,以生成不同层次的问题变体。通过在中间符号表示中修改问题,RE-IMAGINE可以生成任意数量的问题,这些问题仅靠记忆无法解决。此外,该框架具有通用性,可以在不同的推理领域中应用,包括数学、编程和逻辑。我们在四个广泛使用的基准测试上展示了该框架的应用,评估了几类大型语言模型的性能,并观察到当模型面对问题变体时性能有所下降。这些评估结果表明,过去的表现在一定程度上依赖于统计回忆,并为针对推理层次结构中各项技能的进一步研究打开了大门。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RE-IMAGINE:用于推理评估的符号基准合成 | 论文 | HyperAI超神经