3 个月前

Side4Video:用于内存高效图像到视频迁移学习的时空侧网络

Side4Video:用于内存高效图像到视频迁移学习的时空侧网络

摘要

大规模预训练视觉模型在计算机视觉领域取得了令人瞩目的成就。然而,针对下游任务(尤其是视频理解任务)对大型模型进行全量微调,往往面临难以承受的计算开销。近期研究开始聚焦于高效图像到视频的迁移学习。然而,现有的高效微调方法在训练过程中的内存使用效率方面仍缺乏关注,且对将更大规模模型迁移至视频领域的探索尚不充分。本文提出一种新型的时空侧网络(Spatial-Temporal Side Network),用于实现大尺寸图像模型向视频理解任务的高效微调,命名为 Side4Video。具体而言,我们设计了一种轻量级的时空侧网络,与冻结的预训练视觉模型并联连接。该结构避免了对庞大预训练模型进行反向传播,同时充分利用原始图像模型中多层级的空间特征。所提出的极低内存占用架构,相较以往基于适配器(adapter-based)的方法,可减少高达75%的显存使用。得益于这一优势,我们成功将一个超大规模的 ViT-E 模型(44亿参数)迁移至视频理解任务,其规模是 ViT-L(3.04亿参数)的14倍。在多种单模态与跨模态视频数据集上,我们的方法均取得了显著性能表现,涵盖动作识别与文本-视频检索等任务。具体而言,在 Something-Something V1 和 V2 数据集上分别达到 67.3% 和 74.6% 的准确率,在 Kinetics-400 上达到 88.6%,在 MSR-VTT、MSVD 和 VATEX 上分别取得 52.3%、56.1% 和 68.8% 的优异成绩。我们已将代码开源,地址为:https://github.com/HJYao00/Side4Video。

代码仓库

whwu95/ATM
pytorch
GitHub 中提及
HJYao00/Side4Video
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400Side4Video (EVA, ViT-E/14)
Acc@1: 88.6
Acc@5: 98.2
action-recognition-in-videos-on-somethingSide4Video (EVA ViT-E/14)
Top-1 Accuracy: 75.2
Top-5 Accuracy: 94.0
action-recognition-in-videos-on-something-1Side4Video (EVA ViT-E/14
Top 1 Accuracy: 67.3
Top 5 Accuracy: 88.8
video-retrieval-on-msr-vtt-1kaSide4Video
text-to-video Mean Rank: 12.8
text-to-video Median Rank: 1.0
text-to-video R@1: 52.3
text-to-video R@10: 84.2
text-to-video R@5: 75.5
video-retrieval-on-msvdSide4Video
text-to-video Mean Rank: 8.4
text-to-video Median Rank: 1.0
text-to-video R@1: 56.1
text-to-video R@10: 88.8
text-to-video R@5: 81.7
video-retrieval-on-vatexSide4Video
text-to-video MedianR: 2.7
text-to-video R@1: 68.8
text-to-video R@10: 97.0
text-to-video R@5: 93.5
text-to-video R@50: 1.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Side4Video:用于内存高效图像到视频迁移学习的时空侧网络 | 论文 | HyperAI超神经