Command Palette
Search for a command to run...
Anurag Bagchi Jazib Mahmood Dolton Fernandes Ravi Kiran Sarvadevabhatla

摘要
目前最先进的未剪辑视频时序动作定位(Temporal Action Localization, TAL)架构仅考虑了RGB与光流(Flow)模态,完全忽略了信息丰富的音频模态。尽管音频融合已在相关但相对更简单的剪辑级(clip-level)动作识别任务中得到探索,但TAL面临独特的挑战。本文提出了一种简单而有效的基于融合的TAL方法。据我们所知,本工作是首个在监督式TAL任务中联合考虑音频与视频模态的研究。实验结果表明,我们的方法能够持续提升当前最先进的纯视频TAL方法的性能。具体而言,该方法在大规模基准数据集上实现了新的最优性能:在ActivityNet-1.3数据集上达到54.34 [email protected],在THUMOS14数据集上达到57.18 [email protected]。我们的实验涵盖了多种融合策略、模态组合以及TAL架构的消融研究。相关代码、模型及数据已公开,详见:https://github.com/skelemoa/tal-hmo。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-action-localization-on-activitynet | AVFusion | |
| temporal-action-localization-on-thumos-14 | AVFusion | mAP [email protected]: 57.18 |
| temporal-action-localization-on-thumos14 | AVFusion | Avg mAP (0.3:0.7): 53.3 mAP [email protected]: 70.1 mAP [email protected]: 64.9 mAP [email protected]: 57.1 mAP [email protected]: 45.4 mAP [email protected]: 28.8 |