Command Palette
Search for a command to run...
Du Tran Lubomir Bourdev Rob Fergus Lorenzo Torresani Manohar Paluri

摘要
我们提出了一种简单而有效的方法,利用在大规模监督视频数据集上训练的深度三维卷积神经网络(3D ConvNets)进行时空特征学习。我们的研究结果有三个方面:1) 相比于二维卷积神经网络(2D ConvNets),三维卷积神经网络更适合进行时空特征学习;2) 具有所有层均使用小的3x3x3卷积核的同质架构是表现最佳的三维卷积神经网络架构之一;3) 我们学到的特征,即C3D(Convolutional 3D),结合简单的线性分类器,在四个不同的基准测试中超过了现有方法,并在另外两个基准测试中与当前最佳方法相当。此外,这些特征非常紧凑:仅用10个维度就能在UCF101数据集上达到52.8%的准确率,并且由于卷积神经网络的快速推理能力,计算效率也非常高。最后,这些特征在概念上非常简单,易于训练和使用。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-hmdb-51 | C3D | Average accuracy of 3 splits: 51.6 |
| action-recognition-in-videos-on-sports-1m | C3D | Clip Hit@1: 46.1 Video hit@1 : 61.1 Video hit@5: 85.5 |
| action-recognition-in-videos-on-ucf101 | C3D | 3-fold Accuracy: 82.3 |