4 个月前

具有增强即时可区分性的时序动作定位

Dingfeng Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao

摘要

时间动作检测（Temporal Action Detection, TAD）旨在从未剪辑的视频中检测出所有动作的起止边界及其对应类别。然而，视频中动作边界的模糊性常常导致现有方法在预测动作边界时精度不足。为解决这一问题，本文提出一种单阶段框架——TriDet。首先，我们设计了一种三重头结构（Trident-head），通过建模边界附近的相对概率分布来更精确地刻画动作边界。其次，针对基于Transformer的方法中存在的排序损失问题（即瞬间可区分性退化），我们提出一种高效且可扩展的粒度感知（Scalable-Granularity Perception, SGP）模块，以缓解该问题。为进一步提升视频主干网络在瞬间可区分性方面的性能，我们利用预训练大模型强大的表示能力，并系统研究其在TAD任务上的表现。最后，考虑到分类任务对时空上下文信息的充分依赖，我们设计了一种解耦式特征金字塔网络，采用独立的特征金字塔结构，从大模型中提取丰富的空间上下文信息以增强定位能力。实验结果表明，TriDet具有良好的鲁棒性，并在多个TAD数据集（包括层级化（多标签）TAD数据集）上取得了当前最优的性能。

代码仓库

dingfengshi/tridet

pytorch

GitHub 中提及

sssste/tridet

pytorch

GitHub 中提及

dingfengshi/tridetplus

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
temporal-action-localization-on-hacs	TriDet (VideoMAEv2)	Average-mAP: 43.1 [email protected]: 62.4 [email protected]: 44.1 [email protected]: 13.1
temporal-action-localization-on-multithumos-1	TriDet (VideoMAEv2)	Average mAP: 37.5 mAP [email protected]: 57.7 mAP [email protected]: 42.7 mAP [email protected]: 24.3
temporal-action-localization-on-multithumos-1	TriDet (I3D-rgb)	Average mAP: 30.7 mAP [email protected]: 49.1 mAP [email protected]: 34.3 mAP [email protected]: 17.8
temporal-action-localization-on-thumos14	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7): 70.1 mAP [email protected]: 84.8 mAP [email protected]: 80.0 mAP [email protected]: 73.3 mAP [email protected]: 63.8 mAP [email protected]: 48.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

4 个月前

具有增强即时可区分性的时序动作定位

查看论文详情

Dingfeng Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao

摘要

代码仓库

dingfengshi/tridet

pytorch

GitHub 中提及

sssste/tridet

pytorch

GitHub 中提及

dingfengshi/tridetplus

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
temporal-action-localization-on-hacs	TriDet (VideoMAEv2)	Average-mAP: 43.1 [email protected]: 62.4 [email protected]: 44.1 [email protected]: 13.1
temporal-action-localization-on-multithumos-1	TriDet (VideoMAEv2)	Average mAP: 37.5 mAP [email protected]: 57.7 mAP [email protected]: 42.7 mAP [email protected]: 24.3
temporal-action-localization-on-multithumos-1	TriDet (I3D-rgb)	Average mAP: 30.7 mAP [email protected]: 49.1 mAP [email protected]: 34.3 mAP [email protected]: 17.8
temporal-action-localization-on-thumos14	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7): 70.1 mAP [email protected]: 84.8 mAP [email protected]: 80.0 mAP [email protected]: 73.3 mAP [email protected]: 63.8 mAP [email protected]: 48.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

具有增强即时可区分性的时序动作定位

Dingfeng Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

具有增强即时可区分性的时序动作定位

Dingfeng Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters