
摘要
理解视频是计算机视觉研究中的基础性方向之一,学界长期以来致力于探索多种网络架构,包括循环神经网络(RNN)、三维卷积神经网络(3D CNN)以及Transformer等。近期提出的状态空间模型(State Space Model, SSM)架构,例如Mamba,展现出在长序列建模任务中取得成功后,有望将其优势拓展至视频建模领域的潜力。为评估Mamba是否可作为Transformer在视频理解领域的一种可行替代方案,本文开展了一系列系统性研究,深入探究Mamba在视频建模中可能扮演的不同角色,并考察其在多种任务中展现性能优势的可能性。我们基于Mamba在视频建模中的功能定位,将其划分为四种角色,并据此构建了一个包含14个模型/模块的Video Mamba Suite,进而在12项视频理解任务上进行全面评估。大量实验结果表明,Mamba在纯视频任务及视频-语言联合任务中均展现出强劲的潜力,同时在效率与性能之间呈现出极具前景的平衡关系。我们期望本研究能为未来视频理解领域的探索提供有价值的参考数据与深入洞见。项目代码已开源:https://github.com/OpenGVLab/video-mamba-suite。
代码仓库
opengvlab/video-mamba-suite
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| moment-retrieval-on-charades-sta | video-mamba-suite | R@1 IoU=0.5: 57.18 R@1 IoU=0.7: 36.05 |
| moment-retrieval-on-qvhighlights | video-mamba-suite | R@1 IoU=0.5: 66.65 R@1 IoU=0.7: 52.19 mAP: 45.18 mAP@0.5: 64.37 mAP@0.75: 46.68 |
| temporal-action-localization-on-activitynet | ActionMamba (InternVideo2-6B) | mAP: 42.02 mAP IOU@0.5: 62.43 mAP IOU@0.75: 43.49 mAP IOU@0.95: 10.23 |
| temporal-action-localization-on-fineaction | ActionMamba(InternVideo2-6B) | mAP: 29.04 mAP IOU@0.5: 45.44 mAP IOU@0.75: 28.82 mAP IOU@0.95: 6.79 |
| temporal-action-localization-on-hacs | ActionMamba(InternVideo2-6B) | Average-mAP: 44.56 mAP@0.5: 64.02 mAP@0.75: 45.71 mAP@0.95: 13.34 |
| temporal-action-localization-on-thumos14 | ActionMamba(InternVideo2-6B) | Avg mAP (0.3:0.7): 72.72 mAP IOU@0.3: 86.89 mAP IOU@0.4: 83.09 mAP IOU@0.5: 76.90 mAP IOU@0.6: 65.91 mAP IOU@0.7: 50.82 |