HyperAI超神经

摘要

我们介绍了VRBench，这是首个专为评估大型模型多步推理能力而设计的长叙事视频基准，旨在解决现有评估方法中忽视时间推理和程序有效性的问题。该基准包含1,010部长视频（平均时长为1.6小时），以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过一个多阶段过滤过程精心挑选，包括专家互评审查，以优先考虑情节连贯性。我们开发了一个人类与AI协作框架，生成连贯的推理链，每个推理链都需要多个时间定位的步骤，涵盖七种类型（例如事件归因、隐含推断）。VRBench设计了一个多阶段评估管道，从结果和过程两个层面评估模型。除了用于最终结果的多项选择题外，我们还提出了一种进展水平的LLM引导评分指标，全面从多个维度评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估，我们进行了深入分析并提供了宝贵见解，推动了多步推理领域的进步。

摘要

VRBench：长叙事视频多步推理的基准测试集

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

VRBench：长叙事视频多步推理的基准测试集

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

VRBench：长叙事视频多步推理的基准测试集

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng24 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

VRBench：长叙事视频多步推理的基准测试集

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng24 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng