6 个月前

计算机视觉

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

摘要

基于视觉Transformer的视频模型近年来大多遵循“图像预训练后微调”（image pre-training then finetuning）的范式，并在多个视频基准测试中取得了显著成果。然而，由于预训练的图像Transformer模型已展现出极强的迁移能力，对整个视频模型进行全量微调在计算上可能代价高昂且并非必要。为此，本文提出一种新颖的方法——适配预训练图像模型（Adapt pre-trained Image Models, AIM），以实现高效的视频理解。该方法通过冻结预训练的图像模型，并引入少量轻量级适配模块（Adapters），分别设计了空间适应、时间适应以及联合适应机制，逐步赋予图像模型具备时空推理能力。实验结果表明，在四个视频动作识别基准上，所提出的AIM方法在仅使用远少于现有方法的可训练参数情况下，仍能取得具有竞争力甚至更优的性能。由于其结构简洁，该方法具有良好的通用性，可广泛适用于各类预训练图像模型，未来有望充分挖掘更强大图像基础模型的潜力。项目主页详见：\url{https://adapt-image-models.github.io/}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

摘要

基于视觉Transformer的视频模型近年来大多遵循“图像预训练后微调”（image pre-training then finetuning）的范式，并在多个视频基准测试中取得了显著成果。然而，由于预训练的图像Transformer模型已展现出极强的迁移能力，对整个视频模型进行全量微调在计算上可能代价高昂且并非必要。为此，本文提出一种新颖的方法——适配预训练图像模型（Adapt pre-trained Image Models, AIM），以实现高效的视频理解。该方法通过冻结预训练的图像模型，并引入少量轻量级适配模块（Adapters），分别设计了空间适应、时间适应以及联合适应机制，逐步赋予图像模型具备时空推理能力。实验结果表明，在四个视频动作识别基准上，所提出的AIM方法在仅使用远少于现有方法的可训练参数情况下，仍能取得具有竞争力甚至更优的性能。由于其结构简洁，该方法具有良好的通用性，可广泛适用于各类预训练图像模型，未来有望充分挖掘更强大图像基础模型的潜力。项目主页详见：\url{https://adapt-image-models.github.io/}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供