Command Palette

Search for a command to run...

6 个月前

Ego-R1:用于超长第一人称视频推理的工具链思维

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

Ego-R1:用于超长第一人称视频推理的工具链思维

摘要

我们介绍了一种名为Ego-R1的新框架,该框架利用由强化学习(RL)训练的Ego-R1代理所协调的结构化工具链思维(CoTT)过程,对超长(即持续数天至数周)的第一人称视频进行推理。受人类解决问题策略的启发,CoTT将复杂的推理任务分解为模块化的步骤,通过调用特定工具(每步一个),逐步协作回答涉及时间检索和多模态理解等任务的子问题。为了促进训练,我们设计了两阶段训练范式,首先使用CoTT数据对预训练语言模型进行监督微调(SFT),然后通过RL使我们的代理能够动态地提出适用于长距离推理的逐步骤工具。为了便于训练,我们构建了一个名为Ego-R1数据集的数据集,其中包括用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外,我们的Ego-R1代理在新整理的一周视频问答基准测试Ego-R1 Bench上进行了评估,该基准测试包含来自混合来源的人类验证问答对。大量实验结果表明,我们的Ego-R1代理通过动态、工具增强的链式思维推理方法,能够有效应对理解超长第一人称视频的独特挑战,并显著扩展了时间覆盖范围,从几小时延长到一周。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Ego-R1:用于超长第一人称视频推理的工具链思维 | 论文 | HyperAI超神经