6 个月前

摘要

大规模预训练视觉模型在计算机视觉领域取得了令人瞩目的成就。然而，针对下游任务（尤其是视频理解任务）对大型模型进行全量微调，往往面临难以承受的计算开销。近期研究开始聚焦于高效图像到视频的迁移学习。然而，现有的高效微调方法在训练过程中的内存使用效率方面仍缺乏关注，且对将更大规模模型迁移至视频领域的探索尚不充分。本文提出一种新型的时空侧网络（Spatial-Temporal Side Network），用于实现大尺寸图像模型向视频理解任务的高效微调，命名为 Side4Video。具体而言，我们设计了一种轻量级的时空侧网络，与冻结的预训练视觉模型并联连接。该结构避免了对庞大预训练模型进行反向传播，同时充分利用原始图像模型中多层级的空间特征。所提出的极低内存占用架构，相较以往基于适配器（adapter-based）的方法，可减少高达75%的显存使用。得益于这一优势，我们成功将一个超大规模的 ViT-E 模型（44亿参数）迁移至视频理解任务，其规模是 ViT-L（3.04亿参数）的14倍。在多种单模态与跨模态视频数据集上，我们的方法均取得了显著性能表现，涵盖动作识别与文本-视频检索等任务。具体而言，在 Something-Something V1 和 V2 数据集上分别达到 67.3% 和 74.6% 的准确率，在 Kinetics-400 上达到 88.6%，在 MSR-VTT、MSVD 和 VATEX 上分别取得 52.3%、56.1% 和 68.8% 的优异成绩。我们已将代码开源，地址为：https://github.com/HJYao00/Side4Video。

源 PDF