Command Palette

Search for a command to run...

4 个月前

我们在评估文档检索增强生成的正确道路上吗?

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

我们在评估文档检索增强生成的正确道路上吗?

摘要

利用多模态大语言模型(MLLMs)的检索增强生成(RAG)系统在复杂文档理解任务中展现出巨大潜力,但其发展目前严重受限于评估体系的不足。现有的评估基准通常仅关注文档RAG系统中的某个特定环节,且多采用合成数据,其真实答案与证据标签不完整,难以反映现实场景中的瓶颈与挑战。为克服这些局限,我们提出Double-Bench:一个大规模、多语言、多模态的评估体系,能够对文档RAG系统中的各个组件进行细粒度评估。该基准包含3,276份文档(共72,880页),覆盖6种语言和4类文档类型,涵盖5,168个单跳与多跳查询,并支持动态更新机制,以应对潜在的数据污染问题。所有查询均基于全面扫描的证据页面生成,并经人工专家验证,确保数据质量与完整性达到最高标准。我们在9种前沿嵌入模型、4种MLLMs以及4种端到端文档RAG框架上开展全面实验,结果表明文本嵌入模型与视觉嵌入模型之间的性能差距正在缩小,凸显了构建更强大文档检索模型的迫切需求。此外,我们的研究还揭示了当前文档RAG框架中存在的“过度自信”问题——即使缺乏证据支持,系统仍倾向于生成答案。我们希望这一完全开源的Double-Bench能为未来先进文档RAG系统的研究提供严谨可靠的基础。后续我们将持续收集最新语料,并每年发布新版评估基准。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供