HyperAI超神经

摘要

利用多模态大语言模型（MLLMs）的检索增强生成（RAG）系统在复杂文档理解任务中展现出巨大潜力，但其发展目前严重受限于评估体系的不足。现有的评估基准通常仅关注文档RAG系统中的某个特定环节，且多采用合成数据，其真实答案与证据标签不完整，难以反映现实场景中的瓶颈与挑战。为克服这些局限，我们提出Double-Bench：一个大规模、多语言、多模态的评估体系，能够对文档RAG系统中的各个组件进行细粒度评估。该基准包含3,276份文档（共72,880页），覆盖6种语言和4类文档类型，涵盖5,168个单跳与多跳查询，并支持动态更新机制，以应对潜在的数据污染问题。所有查询均基于全面扫描的证据页面生成，并经人工专家验证，确保数据质量与完整性达到最高标准。我们在9种前沿嵌入模型、4种MLLMs以及4种端到端文档RAG框架上开展全面实验，结果表明文本嵌入模型与视觉嵌入模型之间的性能差距正在缩小，凸显了构建更强大文档检索模型的迫切需求。此外，我们的研究还揭示了当前文档RAG框架中存在的“过度自信”问题——即使缺乏证据支持，系统仍倾向于生成答案。我们希望这一完全开源的Double-Bench能为未来先进文档RAG系统的研究提供严谨可靠的基础。后续我们将持续收集最新语料，并每年发布新版评估基准。

摘要

我们在评估文档检索增强生成的正确道路上吗？

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

我们在评估文档检索增强生成的正确道路上吗？

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

我们在评估文档检索增强生成的正确道路上吗？

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

我们在评估文档检索增强生成的正确道路上吗？

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters