3 个月前

Video Mamba 套件:状态空间模型作为视频理解的通用替代方案

Video Mamba 套件:状态空间模型作为视频理解的通用替代方案

摘要

理解视频是计算机视觉研究中的基础性方向之一,学界长期以来致力于探索多种网络架构,包括循环神经网络(RNN)、三维卷积神经网络(3D CNN)以及Transformer等。近期提出的状态空间模型(State Space Model, SSM)架构,例如Mamba,展现出在长序列建模任务中取得成功后,有望将其优势拓展至视频建模领域的潜力。为评估Mamba是否可作为Transformer在视频理解领域的一种可行替代方案,本文开展了一系列系统性研究,深入探究Mamba在视频建模中可能扮演的不同角色,并考察其在多种任务中展现性能优势的可能性。我们基于Mamba在视频建模中的功能定位,将其划分为四种角色,并据此构建了一个包含14个模型/模块的Video Mamba Suite,进而在12项视频理解任务上进行全面评估。大量实验结果表明,Mamba在纯视频任务及视频-语言联合任务中均展现出强劲的潜力,同时在效率与性能之间呈现出极具前景的平衡关系。我们期望本研究能为未来视频理解领域的探索提供有价值的参考数据与深入洞见。项目代码已开源:https://github.com/OpenGVLab/video-mamba-suite。

代码仓库

opengvlab/video-mamba-suite
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
moment-retrieval-on-charades-stavideo-mamba-suite
R@1 IoU=0.5: 57.18
R@1 IoU=0.7: 36.05
moment-retrieval-on-qvhighlightsvideo-mamba-suite
R@1 IoU=0.5: 66.65
R@1 IoU=0.7: 52.19
mAP: 45.18
mAP@0.5: 64.37
mAP@0.75: 46.68
temporal-action-localization-on-activitynetActionMamba (InternVideo2-6B)
mAP: 42.02
mAP IOU@0.5: 62.43
mAP IOU@0.75: 43.49
mAP IOU@0.95: 10.23
temporal-action-localization-on-fineactionActionMamba(InternVideo2-6B)
mAP: 29.04
mAP IOU@0.5: 45.44
mAP IOU@0.75: 28.82
mAP IOU@0.95: 6.79
temporal-action-localization-on-hacsActionMamba(InternVideo2-6B)
Average-mAP: 44.56
mAP@0.5: 64.02
mAP@0.75: 45.71
mAP@0.95: 13.34
temporal-action-localization-on-thumos14ActionMamba(InternVideo2-6B)
Avg mAP (0.3:0.7): 72.72
mAP IOU@0.3: 86.89
mAP IOU@0.4: 83.09
mAP IOU@0.5: 76.90
mAP IOU@0.6: 65.91
mAP IOU@0.7: 50.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Video Mamba 套件:状态空间模型作为视频理解的通用替代方案 | 论文 | HyperAI超神经