4 个月前

掩码运动编码用于自监督视频表征学习

掩码运动编码用于自监督视频表征学习

摘要

如何从未标记的视频中学习判别性的视频表示是一个具有挑战性但至关重要的问题,对于视频分析而言尤为如此。最新的尝试旨在通过预测被遮掩区域的外观内容来学习表示模型。然而,仅仅遮掩和恢复外观内容可能不足以建模时间线索,因为这些内容可以从单个帧中轻松重建。为了解决这一局限性,我们提出了遮掩运动编码(Masked Motion Encoding, MME),这是一种新的预训练范式,通过重建外观和运动信息来探索时间线索。在MME中,我们重点关注两个关键挑战以提高表示性能:1)如何有效地表示跨越多个帧的潜在长期运动;2)如何从稀疏采样的视频中获得细粒度的时间线索。受人类能够通过追踪物体的位置变化和形状变化来识别动作这一事实的启发,我们提出在被遮掩区域重建一条代表这两种变化的运动轨迹。此外,鉴于输入视频是稀疏采样的,我们强制模型在空间和时间维度上重建密集的运动轨迹。经过我们的MME范式预训练后,该模型能够预测长期和细粒度的运动细节。代码可在https://github.com/XinyuSun/MME 获取。

代码仓库

XinyuSun/M3Video
pytorch
GitHub 中提及
xinyusun/mme
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
self-supervised-action-recognition-on-hmdb51M3Video
Frozen: false
Pre-Training Dataset: Kinetics400
Top-1 Accuracy: 78.0
self-supervised-action-recognition-on-ucf101M3Video
3-fold Accuracy: 96.5
Frozen: false
Pre-Training Dataset: Kinetics400

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
掩码运动编码用于自监督视频表征学习 | 论文 | HyperAI超神经