4 个月前

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

摘要

多模态大语言模型的兴起显著提升了对来自不同模态的复杂数据输入进行分析与理解的能力。然而，长文档的处理仍缺乏充分探索，主要原因在于缺乏合适的基准测试数据集。为解决这一问题，我们提出了 Document Haystack——一个全面的基准测试集，旨在评估视觉语言模型（VLMs）在处理长篇、视觉结构复杂的文档时的表现。Document Haystack 包含页数从5到200页不等的文档，并在文档的不同深度处战略性地插入纯文本或图文混合的“针状”样本（text+image "needles"），以挑战VLMs的文档检索能力。该基准共包含400种文档变体，总计8,250个问题，并配备了一个客观、自动化的评估框架。本文详细阐述了Document Haystack数据集的构建方法与特性，报告了主流VLMs在该基准上的实验结果，并探讨了该领域未来可能的研究方向。