4 个月前

Video Mamba 套件：状态空间模型作为视频理解的通用替代方案

Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang

摘要

理解视频是计算机视觉研究中的基础性方向之一，学界长期以来致力于探索多种网络架构，包括循环神经网络（RNN）、三维卷积神经网络（3D CNN）以及Transformer等。近期提出的状态空间模型（State Space Model, SSM）架构，例如Mamba，展现出在长序列建模任务中取得成功后，有望将其优势拓展至视频建模领域的潜力。为评估Mamba是否可作为Transformer在视频理解领域的一种可行替代方案，本文开展了一系列系统性研究，深入探究Mamba在视频建模中可能扮演的不同角色，并考察其在多种任务中展现性能优势的可能性。我们基于Mamba在视频建模中的功能定位，将其划分为四种角色，并据此构建了一个包含14个模型/模块的Video Mamba Suite，进而在12项视频理解任务上进行全面评估。大量实验结果表明，Mamba在纯视频任务及视频-语言联合任务中均展现出强劲的潜力，同时在效率与性能之间呈现出极具前景的平衡关系。我们期望本研究能为未来视频理解领域的探索提供有价值的参考数据与深入洞见。项目代码已开源：https://github.com/OpenGVLab/video-mamba-suite。

代码仓库

opengvlab/video-mamba-suite

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
moment-retrieval-on-charades-sta	video-mamba-suite	R@1 IoU=0.5: 57.18 R@1 IoU=0.7: 36.05
moment-retrieval-on-qvhighlights	video-mamba-suite	R@1 IoU=0.5: 66.65 R@1 IoU=0.7: 52.19 mAP: 45.18 [email protected]: 64.37 [email protected]: 46.68
temporal-action-localization-on-activitynet	ActionMamba (InternVideo2-6B)	mAP: 42.02 mAP [email protected]: 62.43 mAP [email protected]: 43.49 mAP [email protected]: 10.23
temporal-action-localization-on-fineaction	ActionMamba(InternVideo2-6B)	mAP: 29.04 mAP [email protected]: 45.44 mAP [email protected]: 28.82 mAP [email protected]: 6.79
temporal-action-localization-on-hacs	ActionMamba(InternVideo2-6B)	Average-mAP: 44.56 [email protected]: 64.02 [email protected]: 45.71 [email protected]: 13.34
temporal-action-localization-on-thumos14	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7): 72.72 mAP [email protected]: 86.89 mAP [email protected]: 83.09 mAP [email protected]: 76.90 mAP [email protected]: 65.91 mAP [email protected]: 50.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

4 个月前

Video Mamba 套件：状态空间模型作为视频理解的通用替代方案

查看论文详情

Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang

摘要

代码仓库

opengvlab/video-mamba-suite

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
moment-retrieval-on-charades-sta	video-mamba-suite	R@1 IoU=0.5: 57.18 R@1 IoU=0.7: 36.05
moment-retrieval-on-qvhighlights	video-mamba-suite	R@1 IoU=0.5: 66.65 R@1 IoU=0.7: 52.19 mAP: 45.18 [email protected]: 64.37 [email protected]: 46.68
temporal-action-localization-on-activitynet	ActionMamba (InternVideo2-6B)	mAP: 42.02 mAP [email protected]: 62.43 mAP [email protected]: 43.49 mAP [email protected]: 10.23
temporal-action-localization-on-fineaction	ActionMamba(InternVideo2-6B)	mAP: 29.04 mAP [email protected]: 45.44 mAP [email protected]: 28.82 mAP [email protected]: 6.79
temporal-action-localization-on-hacs	ActionMamba(InternVideo2-6B)	Average-mAP: 44.56 [email protected]: 64.02 [email protected]: 45.71 [email protected]: 13.34
temporal-action-localization-on-thumos14	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7): 72.72 mAP [email protected]: 86.89 mAP [email protected]: 83.09 mAP [email protected]: 76.90 mAP [email protected]: 65.91 mAP [email protected]: 50.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Video Mamba 套件：状态空间模型作为视频理解的通用替代方案

Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

Video Mamba 套件：状态空间模型作为视频理解的通用替代方案

Guo Chen Yifei Huang Jilan Xu Baoqi Pei Zhe Chen Zhiqi Li Jiahao Wang Kunchang Li Tong Lu Limin Wang

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters