Command Palette

Search for a command to run...

4 个月前

Document Haystack:一个长上下文多模态图像/文档理解视觉LLM基准

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Document Haystack:一个长上下文多模态图像/文档理解视觉LLM基准

摘要

多模态大语言模型的兴起显著提升了对来自不同模态的复杂数据输入进行分析与理解的能力。然而,长文档的处理仍缺乏充分探索,主要原因在于缺乏合适的基准测试数据集。为解决这一问题,我们提出了 Document Haystack——一个全面的基准测试集,旨在评估视觉语言模型(VLMs)在处理长篇、视觉结构复杂的文档时的表现。Document Haystack 包含页数从5到200页不等的文档,并在文档的不同深度处战略性地插入纯文本或图文混合的“针状”样本(text+image "needles"),以挑战VLMs的文档检索能力。该基准共包含400种文档变体,总计8,250个问题,并配备了一个客观、自动化的评估框架。本文详细阐述了Document Haystack数据集的构建方法与特性,报告了主流VLMs在该基准上的实验结果,并探讨了该领域未来可能的研究方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Document Haystack:一个长上下文多模态图像/文档理解视觉LLM基准 | 论文 | HyperAI超神经