Command Palette
Search for a command to run...
WonJun Moon Sangeek Hyun SangUk Park Dongchan Park Jae-Pil Heo

摘要
近日,随着对视频理解需求的急剧增加,视频片段检索和高光检测(MR/HD)受到了广泛关注。MR/HD的主要目标是在给定文本查询的情况下,定位视频中的特定时刻并估计每个片段与查询的相关性水平,即显著性分数。尽管最近基于变压器的模型取得了一些进展,但我们发现这些方法并未充分利用给定查询的信息。例如,在预测时刻及其显著性时,有时会忽略文本查询与视频内容之间的相关性。为了解决这一问题,我们引入了Query-Dependent DETR(QD-DETR),这是一种专门为MR/HD设计的检测变压器。鉴于我们在变压器架构中观察到给定查询的作用微乎其微,我们的编码模块从交叉注意力层开始,明确地将文本查询的上下文注入到视频表示中。接下来,为了增强模型利用查询信息的能力,我们对视频-查询对进行操作以生成无关对。这些负样本(无关)的视频-查询对被训练以产生较低的显著性分数,从而促使模型更精确地估计查询-视频对之间的相关性。最后,我们提出了一种输入自适应显著性预测器,该预测器能够根据给定的视频-查询对自适应地定义显著性分数的标准。我们的大量研究表明,在MR/HD任务中构建依赖于查询的表示的重要性。具体而言,QD-DETR在QVHighlights、TVSum和Charades-STA数据集上超越了现有最先进方法。代码可在github.com/wjun0830/QD-DETR获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | QD-DETR (only Video w/ PT) | Hit@1: 61.91 |
| highlight-detection-on-qvhighlights | QD-DETR | Hit@1: 62.87 mAP: 39.04 |
| highlight-detection-on-qvhighlights | QD-DETR (w/ PT) | Hit@1: 62.27 mAP: 38.52 |
| highlight-detection-on-qvhighlights | QD-DETR (only Video) | Hit@1: 62.40 mAP: 38.94 |
| highlight-detection-on-tvsum | QD-DETR | mAP: 86.6 |
| highlight-detection-on-tvsum | QD-DETR (only Video) | mAP: 85.0 |
| moment-retrieval-on-charades-sta | QD-DETR (Only Video) | R@1 IoU=0.5: 57.31 R@1 IoU=0.7: 32.55 |
| moment-retrieval-on-qvhighlights | QD-DETR (only Video) | |
| moment-retrieval-on-qvhighlights | QD-DETR (w/ audio) | |
| moment-retrieval-on-qvhighlights | QD-DETR (w/ PT) | |
| moment-retrieval-on-qvhighlights | QD-DETR (only Video w/ PT ASR Captions) | |
| video-grounding-on-qvhighlights | QD-DETR | R@1,IoU=0.5: 62.40 R@1,IoU=0.7: 44.98 |