HyperAI超神经

Action Recognition In Videos On Activitynet

评估指标

mAP

评测结果

各个模型在此基准测试上的表现结果

		Paper Title
Text4Vis (w/ ViT-L)	96.9	Revisiting Classifier: Transferring Vision-Language Models for Video Recognition
BIKE	96.1	Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models
InternVideo2-6B	95.9	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
NSNet (w/ Swin-L)	94.3	NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition
TSQNet (w/ Swin-L)	93.7	Temporal Saliency Query Network for Efficient Video Recognition
DSANet (w/ 3D ResNet50)	90.5	DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning
MARL (w/ SEResNeXt-152)	90.05	Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition
ListenToLook	89.9	Listen to Look: Action Recognition by Previewing Audio
DSN	87.9	Dynamic Sampling Networks for Efficient Action Recognition in Videos
SMART	84.4	SMART Frame Selection for Action Recognition
Ada3D	84.0	2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition
RRA	83.4	Fine-grained Video Categorization with Redundancy Reduction Attention
P3D	78.9	Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
VGG19 + 393K webcam images	53.8	Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web
CD-UAR	53.8	Towards Universal Representation for Unseen Action Recognition
VGG19	52.3	Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web

0 of 16 row(s) selected.

HyperAI超神经

Action Recognition In Videos On Activitynet

评估指标

mAP

评测结果

各个模型在此基准测试上的表现结果

		Paper Title
Text4Vis (w/ ViT-L)	96.9	Revisiting Classifier: Transferring Vision-Language Models for Video Recognition
BIKE	96.1	Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models
InternVideo2-6B	95.9	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
NSNet (w/ Swin-L)	94.3	NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition
TSQNet (w/ Swin-L)	93.7	Temporal Saliency Query Network for Efficient Video Recognition
DSANet (w/ 3D ResNet50)	90.5	DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning
MARL (w/ SEResNeXt-152)	90.05	Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition
ListenToLook	89.9	Listen to Look: Action Recognition by Previewing Audio
DSN	87.9	Dynamic Sampling Networks for Efficient Action Recognition in Videos
SMART	84.4	SMART Frame Selection for Action Recognition
Ada3D	84.0	2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition
RRA	83.4	Fine-grained Video Categorization with Redundancy Reduction Attention
P3D	78.9	Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
VGG19 + 393K webcam images	53.8	Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web
CD-UAR	53.8	Towards Universal Representation for Unseen Action Recognition
VGG19	52.3	Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web

0 of 16 row(s) selected.

Action Recognition In Videos On Activitynet | SOTA | HyperAI超神经