3 个月前

将视频掩码自编码器扩展至128帧

将视频掩码自编码器扩展至128帧

摘要

视频理解近年来取得了显著进展,得益于自监督预训练目标的引入,尤其是基于掩码自编码器(Masked Autoencoders, MAE)的设计展现出强大性能。然而,以往多数基于MAE预训练的方法主要聚焦于较短的视频表示(长度为16或32帧),这在很大程度上受限于硬件内存与计算资源的瓶颈——随着视频长度增加,密集的内存密集型自注意力解码机制导致资源消耗急剧上升。一种自然的应对策略是通过在解码阶段对token进行下采样以重建(即解码器掩码)。在本工作中,我们提出了一种高效且具有优先级的token选择策略,使得模型能够在更长的视频序列(128帧)上进行训练,并在性能上优于传统的随机掩码与均匀掩码策略。本方法的核心在于一种自适应解码器掩码机制,该机制能够优先选择最具信息量的token,并以量化后的token作为重建目标。我们的自适应策略依托于一种基于MAGVIT的分词器,该分词器能够联合学习token及其优先级。通过全面的消融实验,我们验证了设计选择的有效性,并观察到所构建的长视频(128帧)编码器在性能上显著优于传统的短视频(32帧)编码器。基于提出的长视频掩码自编码器(Long-Video Masked Autoencoder, LVMAE)策略,我们在Diving48数据集上超越当前最优水平3.9个百分点,在EPIC-Kitchens-100动作分类任务上提升2.5个百分点。值得注意的是,该方法仅依赖于简洁的核心架构与纯视频自监督预训练,无需依赖数百万标注的视频-文本对,也无需使用专用编码器,展现出更强的通用性与实用性。

基准测试

基准方法指标
action-recognition-on-diving-48LVMAE
Accuracy: 94.9
action-recognition-on-epic-kitchens-100LVMAE
Action@1: 52.1
Noun@1: 61.8
Verb@1: 75.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将视频掩码自编码器扩展至128帧 | 论文 | HyperAI超神经