Command Palette
Search for a command to run...

摘要
我们介绍了VRBench,这是首个专为评估大型模型多步推理能力而设计的长叙事视频基准,旨在解决现有评估方法中忽视时间推理和程序有效性的问题。该基准包含1,010部长视频(平均时长为1.6小时),以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过一个多阶段过滤过程精心挑选,包括专家互评审查,以优先考虑情节连贯性。我们开发了一个人类与AI协作框架,生成连贯的推理链,每个推理链都需要多个时间定位的步骤,涵盖七种类型(例如事件归因、隐含推断)。VRBench设计了一个多阶段评估管道,从结果和过程两个层面评估模型。除了用于最终结果的多项选择题外,我们还提出了一种进展水平的LLM引导评分指标,全面从多个维度评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估,我们进行了深入分析并提供了宝贵见解,推动了多步推理领域的进步。