Command Palette

Search for a command to run...

6 个月前

VRBench:长叙事视频多步推理的基准测试集

VRBench:长叙事视频多步推理的基准测试集

摘要

我们介绍了VRBench,这是首个专为评估大型模型多步推理能力而设计的长叙事视频基准,旨在解决现有评估方法中忽视时间推理和程序有效性的问题。该基准包含1,010部长视频(平均时长为1.6小时),以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过一个多阶段过滤过程精心挑选,包括专家互评审查,以优先考虑情节连贯性。我们开发了一个人类与AI协作框架,生成连贯的推理链,每个推理链都需要多个时间定位的步骤,涵盖七种类型(例如事件归因、隐含推断)。VRBench设计了一个多阶段评估管道,从结果和过程两个层面评估模型。除了用于最终结果的多项选择题外,我们还提出了一种进展水平的LLM引导评分指标,全面从多个维度评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估,我们进行了深入分析并提供了宝贵见解,推动了多步推理领域的进步。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供