Command Palette

Search for a command to run...

6 个月前

TubeDETR:基于Transformer的时空视频定位

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

TubeDETR:基于Transformer的时空视频定位

摘要

我们研究了在视频中定位与给定文本查询相对应的空间-时间管的问题。这是一个具有挑战性的任务,需要对时间、空间和多模态交互进行联合且高效的建模。为了解决这一问题,我们提出了TubeDETR,这是一种基于变压器架构的模型,灵感来源于此类模型在文本条件下的目标检测中的最新成功。我们的模型特别包括:(i) 一个高效的视频和文本编码器,该编码器能够在稀疏采样的帧上建模空间多模态交互;(ii) 一个时空解码器,能够联合执行空间-时间定位。通过广泛的消融研究,我们展示了所提出组件的优势。我们还在空间-时间视频接地任务上评估了我们的整体方法,并在具有挑战性的VidSTG和HC-STVG基准测试中展示了优于现有最佳方法的改进。代码和训练好的模型可在 https://antoyang.github.io/tubedetr.html 公开获取。

代码仓库

基准测试

基准方法指标
spatio-temporal-video-grounding-on-hc-stvg1TubeDETR
m_vIoU: 32.4
spatio-temporal-video-grounding-on-hc-stvg2TubeDETR
Val m_vIoU: 36.4
spatio-temporal-video-grounding-on-vidstgTubeDETR
Declarative m_vIoU: 30.4
Declarative [email protected]: 42.5
Declarative [email protected]: 28.2
Interrogative m_vIoU: 25.7
Interrogative [email protected]: 35.7
Interrogative [email protected]: 23.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TubeDETR:基于Transformer的时空视频定位 | 论文 | HyperAI超神经