6 个月前

面向查询的视频表示用于时刻检索和高光检测

WonJun Moon Sangeek Hyun SangUk Park Dongchan Park Jae-Pil Heo

摘要

近日，随着对视频理解需求的急剧增加，视频片段检索和高光检测（MR/HD）受到了广泛关注。MR/HD的主要目标是在给定文本查询的情况下，定位视频中的特定时刻并估计每个片段与查询的相关性水平，即显著性分数。尽管最近基于变压器的模型取得了一些进展，但我们发现这些方法并未充分利用给定查询的信息。例如，在预测时刻及其显著性时，有时会忽略文本查询与视频内容之间的相关性。为了解决这一问题，我们引入了Query-Dependent DETR（QD-DETR），这是一种专门为MR/HD设计的检测变压器。鉴于我们在变压器架构中观察到给定查询的作用微乎其微，我们的编码模块从交叉注意力层开始，明确地将文本查询的上下文注入到视频表示中。接下来，为了增强模型利用查询信息的能力，我们对视频-查询对进行操作以生成无关对。这些负样本（无关）的视频-查询对被训练以产生较低的显著性分数，从而促使模型更精确地估计查询-视频对之间的相关性。最后，我们提出了一种输入自适应显著性预测器，该预测器能够根据给定的视频-查询对自适应地定义显著性分数的标准。我们的大量研究表明，在MR/HD任务中构建依赖于查询的表示的重要性。具体而言，QD-DETR在QVHighlights、TVSum和Charades-STA数据集上超越了现有最先进方法。代码可在github.com/wjun0830/QD-DETR获取。

代码仓库

wjun0830/qd-detr

官方

pytorch

GitHub 中提及

github.com/wjun0830/QD-DETR

基准测试

基准	方法	指标
highlight-detection-on-qvhighlights	QD-DETR (only Video w/ PT)	Hit@1: 61.91
highlight-detection-on-qvhighlights	QD-DETR	Hit@1: 62.87 mAP: 39.04
highlight-detection-on-qvhighlights	QD-DETR (w/ PT)	Hit@1: 62.27 mAP: 38.52
highlight-detection-on-qvhighlights	QD-DETR (only Video)	Hit@1: 62.40 mAP: 38.94
highlight-detection-on-tvsum	QD-DETR	mAP: 86.6
highlight-detection-on-tvsum	QD-DETR (only Video)	mAP: 85.0
moment-retrieval-on-charades-sta	QD-DETR (Only Video)	R@1 IoU=0.5: 57.31 R@1 IoU=0.7: 32.55
moment-retrieval-on-qvhighlights	QD-DETR (only Video)	R@1 IoU=0.5: 62.40 R@1 IoU=0.7: 44.98 mAP: 39.86 [email protected]: 62.52 [email protected]: 39.88
moment-retrieval-on-qvhighlights	QD-DETR (w/ audio)	R@1 IoU=0.5: 63.06 R@1 IoU=0.7: 45.10 mAP: 40.19 [email protected]: 63.04 [email protected]: 40.10
moment-retrieval-on-qvhighlights	QD-DETR (w/ PT)	R@1 IoU=0.5: 64.1 R@1 IoU=0.7: 46.1 mAP: 40.62 [email protected]: 64.3 [email protected]: 40.5
moment-retrieval-on-qvhighlights	QD-DETR (only Video w/ PT ASR Captions)	R@1 IoU=0.5: 63.2 R@1 IoU=0.7: 45.2 mAP: 40.0 [email protected]: 63.4 [email protected]: 40.4
video-grounding-on-qvhighlights	QD-DETR	R@1,IoU=0.5: 62.40 R@1,IoU=0.7: 44.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

6 个月前

面向查询的视频表示用于时刻检索和高光检测

查看论文详情

WonJun Moon Sangeek Hyun SangUk Park Dongchan Park Jae-Pil Heo

摘要

代码仓库

wjun0830/qd-detr

官方

pytorch

GitHub 中提及

github.com/wjun0830/QD-DETR

基准测试

基准	方法	指标
highlight-detection-on-qvhighlights	QD-DETR (only Video w/ PT)	Hit@1: 61.91
highlight-detection-on-qvhighlights	QD-DETR	Hit@1: 62.87 mAP: 39.04
highlight-detection-on-qvhighlights	QD-DETR (w/ PT)	Hit@1: 62.27 mAP: 38.52
highlight-detection-on-qvhighlights	QD-DETR (only Video)	Hit@1: 62.40 mAP: 38.94
highlight-detection-on-tvsum	QD-DETR	mAP: 86.6
highlight-detection-on-tvsum	QD-DETR (only Video)	mAP: 85.0
moment-retrieval-on-charades-sta	QD-DETR (Only Video)	R@1 IoU=0.5: 57.31 R@1 IoU=0.7: 32.55
moment-retrieval-on-qvhighlights	QD-DETR (only Video)	R@1 IoU=0.5: 62.40 R@1 IoU=0.7: 44.98 mAP: 39.86 [email protected]: 62.52 [email protected]: 39.88
moment-retrieval-on-qvhighlights	QD-DETR (w/ audio)	R@1 IoU=0.5: 63.06 R@1 IoU=0.7: 45.10 mAP: 40.19 [email protected]: 63.04 [email protected]: 40.10
moment-retrieval-on-qvhighlights	QD-DETR (w/ PT)	R@1 IoU=0.5: 64.1 R@1 IoU=0.7: 46.1 mAP: 40.62 [email protected]: 64.3 [email protected]: 40.5
moment-retrieval-on-qvhighlights	QD-DETR (only Video w/ PT ASR Captions)	R@1 IoU=0.5: 63.2 R@1 IoU=0.7: 45.2 mAP: 40.0 [email protected]: 63.4 [email protected]: 40.4
video-grounding-on-qvhighlights	QD-DETR	R@1,IoU=0.5: 62.40 R@1,IoU=0.7: 44.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

面向查询的视频表示用于时刻检索和高光检测

WonJun Moon Sangeek Hyun SangUk Park Dongchan Park Jae-Pil Heo

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

面向查询的视频表示用于时刻检索和高光检测

WonJun Moon Sangeek Hyun SangUk Park Dongchan Park Jae-Pil Heo

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters