6 个月前

TubeDETR：基于Transformer的时空视频定位

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

摘要

我们研究了在视频中定位与给定文本查询相对应的空间-时间管的问题。这是一个具有挑战性的任务，需要对时间、空间和多模态交互进行联合且高效的建模。为了解决这一问题，我们提出了TubeDETR，这是一种基于变压器架构的模型，灵感来源于此类模型在文本条件下的目标检测中的最新成功。我们的模型特别包括：(i) 一个高效的视频和文本编码器，该编码器能够在稀疏采样的帧上建模空间多模态交互；(ii) 一个时空解码器，能够联合执行空间-时间定位。通过广泛的消融研究，我们展示了所提出组件的优势。我们还在空间-时间视频接地任务上评估了我们的整体方法，并在具有挑战性的VidSTG和HC-STVG基准测试中展示了优于现有最佳方法的改进。代码和训练好的模型可在 https://antoyang.github.io/tubedetr.html 公开获取。

代码仓库

antoyang/TubeDETR

官方

pytorch

GitHub 中提及

https://antoyang.github.io/tubedetr.html

基准测试

基准	方法	指标
spatio-temporal-video-grounding-on-hc-stvg1	TubeDETR	m_vIoU: 32.4 [email protected]: 49.8 [email protected]: 23.5
spatio-temporal-video-grounding-on-hc-stvg2	TubeDETR	Val m_vIoU: 36.4 Val [email protected]: 58.8 Val [email protected]: 30.6
spatio-temporal-video-grounding-on-vidstg	TubeDETR	Declarative m_vIoU: 30.4 Declarative [email protected]: 42.5 Declarative [email protected]: 28.2 Interrogative m_vIoU: 25.7 Interrogative [email protected]: 35.7 Interrogative [email protected]: 23.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

6 个月前

TubeDETR：基于Transformer的时空视频定位

查看论文详情查看代码

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

摘要

代码仓库

antoyang/TubeDETR

官方

pytorch

GitHub 中提及

https://antoyang.github.io/tubedetr.html

基准测试

基准	方法	指标
spatio-temporal-video-grounding-on-hc-stvg1	TubeDETR	m_vIoU: 32.4 [email protected]: 49.8 [email protected]: 23.5
spatio-temporal-video-grounding-on-hc-stvg2	TubeDETR	Val m_vIoU: 36.4 Val [email protected]: 58.8 Val [email protected]: 30.6
spatio-temporal-video-grounding-on-vidstg	TubeDETR	Declarative m_vIoU: 30.4 Declarative [email protected]: 42.5 Declarative [email protected]: 28.2 Interrogative m_vIoU: 25.7 Interrogative [email protected]: 35.7 Interrogative [email protected]: 23.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

TubeDETR：基于Transformer的时空视频定位 | 论文 | HyperAI超神经

Command Palette

TubeDETR：基于Transformer的时空视频定位

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

TubeDETR：基于Transformer的时空视频定位

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters