
摘要
大规模预训练视觉模型在计算机视觉领域取得了令人瞩目的成就。然而,针对下游任务(尤其是视频理解任务)对大型模型进行全量微调,往往面临难以承受的计算开销。近期研究开始聚焦于高效图像到视频的迁移学习。然而,现有的高效微调方法在训练过程中的内存使用效率方面仍缺乏关注,且对将更大规模模型迁移至视频领域的探索尚不充分。本文提出一种新型的时空侧网络(Spatial-Temporal Side Network),用于实现大尺寸图像模型向视频理解任务的高效微调,命名为 Side4Video。具体而言,我们设计了一种轻量级的时空侧网络,与冻结的预训练视觉模型并联连接。该结构避免了对庞大预训练模型进行反向传播,同时充分利用原始图像模型中多层级的空间特征。所提出的极低内存占用架构,相较以往基于适配器(adapter-based)的方法,可减少高达75%的显存使用。得益于这一优势,我们成功将一个超大规模的 ViT-E 模型(44亿参数)迁移至视频理解任务,其规模是 ViT-L(3.04亿参数)的14倍。在多种单模态与跨模态视频数据集上,我们的方法均取得了显著性能表现,涵盖动作识别与文本-视频检索等任务。具体而言,在 Something-Something V1 和 V2 数据集上分别达到 67.3% 和 74.6% 的准确率,在 Kinetics-400 上达到 88.6%,在 MSR-VTT、MSVD 和 VATEX 上分别取得 52.3%、56.1% 和 68.8% 的优异成绩。我们已将代码开源,地址为:https://github.com/HJYao00/Side4Video。
代码仓库
whwu95/ATM
pytorch
GitHub 中提及
HJYao00/Side4Video
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | Side4Video (EVA, ViT-E/14) | Acc@1: 88.6 Acc@5: 98.2 |
| action-recognition-in-videos-on-something | Side4Video (EVA ViT-E/14) | Top-1 Accuracy: 75.2 Top-5 Accuracy: 94.0 |
| action-recognition-in-videos-on-something-1 | Side4Video (EVA ViT-E/14 | Top 1 Accuracy: 67.3 Top 5 Accuracy: 88.8 |
| video-retrieval-on-msr-vtt-1ka | Side4Video | text-to-video Mean Rank: 12.8 text-to-video Median Rank: 1.0 text-to-video R@1: 52.3 text-to-video R@10: 84.2 text-to-video R@5: 75.5 |
| video-retrieval-on-msvd | Side4Video | text-to-video Mean Rank: 8.4 text-to-video Median Rank: 1.0 text-to-video R@1: 56.1 text-to-video R@10: 88.8 text-to-video R@5: 81.7 |
| video-retrieval-on-vatex | Side4Video | text-to-video MedianR: 2.7 text-to-video R@1: 68.8 text-to-video R@10: 97.0 text-to-video R@5: 93.5 text-to-video R@50: 1.0 |