HyperAI

摘要

我们介绍了一种名为Ego-R1的新框架，该框架利用由强化学习（RL）训练的Ego-R1代理所协调的结构化工具链思维（CoTT）过程，对超长（即持续数天至数周）的第一人称视频进行推理。受人类解决问题策略的启发，CoTT将复杂的推理任务分解为模块化的步骤，通过调用特定工具（每步一个），逐步协作回答涉及时间检索和多模态理解等任务的子问题。为了促进训练，我们设计了两阶段训练范式，首先使用CoTT数据对预训练语言模型进行监督微调（SFT），然后通过RL使我们的代理能够动态地提出适用于长距离推理的逐步骤工具。为了便于训练，我们构建了一个名为Ego-R1数据集的数据集，其中包括用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外，我们的Ego-R1代理在新整理的一周视频问答基准测试Ego-R1 Bench上进行了评估，该基准测试包含来自混合来源的人类验证问答对。大量实验结果表明，我们的Ego-R1代理通过动态、工具增强的链式思维推理方法，能够有效应对理解超长第一人称视频的独特挑战，并显著扩展了时间覆盖范围，从几小时延长到一周。

摘要

Ego-R1：用于超长第一人称视频推理的工具链思维

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Ego-R1：用于超长第一人称视频推理的工具链思维

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Ego-R1：用于超长第一人称视频推理的工具链思维

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Ego-R1：用于超长第一人称视频推理的工具链思维

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters