HyperAI超神经

4 个月前

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

查看论文详情

Mo Yu Tsz Ting Chung Chulun Zhou Tong Li Rui Lu Jiangnan Li Liyan Xu Haoshu Lu Ning Zhang Jing Li

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

摘要

我们提出了 PRELUDE，这是一个通过判断角色前传故事是否与原著经典叙事一致来评估长上下文理解能力的基准测试。与现有基准相比，该任务对全局理解与深度推理能力提出了更高要求——由于前传并非原著故事的一部分，评估其合理性通常需要检索并整合那些仅具有间接关联的信息。实证研究表明，88% 的测试实例需要来自叙事多个部分的证据。实验结果凸显了该任务的挑战性：即使采用最先进的大语言模型进行上下文学习、检索增强生成（RAG）、领域内微调，以及商用 DeepResearch 服务，其表现仍比人类低超过 15%。进一步的人类研究发现，模型虽常能给出正确答案，但推理过程往往存在缺陷，导致其推理准确率相较于人类高出超过 30% 的差距。这些发现表明，当前在长上下文理解与推理能力方面仍存在巨大的提升空间。

代码仓库

https://gorov.github.io/prelude

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

4 个月前

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

查看论文详情

Mo Yu Tsz Ting Chung Chulun Zhou Tong Li Rui Lu Jiangnan Li Liyan Xu Haoshu Lu Ning Zhang Jing Li

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

摘要

我们提出了 PRELUDE，这是一个通过判断角色前传故事是否与原著经典叙事一致来评估长上下文理解能力的基准测试。与现有基准相比，该任务对全局理解与深度推理能力提出了更高要求——由于前传并非原著故事的一部分，评估其合理性通常需要检索并整合那些仅具有间接关联的信息。实证研究表明，88% 的测试实例需要来自叙事多个部分的证据。实验结果凸显了该任务的挑战性：即使采用最先进的大语言模型进行上下文学习、检索增强生成（RAG）、领域内微调，以及商用 DeepResearch 服务，其表现仍比人类低超过 15%。进一步的人类研究发现，模型虽常能给出正确答案，但推理过程往往存在缺陷，导致其推理准确率相较于人类高出超过 30% 的差距。这些发现表明，当前在长上下文理解与推理能力方面仍存在巨大的提升空间。

代码仓库

https://gorov.github.io/prelude

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准 | 论文 | HyperAI超神经