4 个月前

大规模弱监督预训练在视频动作识别中的应用

大规模弱监督预训练在视频动作识别中的应用

摘要

当前的全监督视频数据集仅包含数十万条视频和不到一千个领域特定标签。这阻碍了向更高级视频架构的发展。本文对使用大量网络视频(超过6500万条)进行预训练以完成动作识别任务的视频模型进行了深入研究。我们的主要实证发现是,尽管这些噪声较大的社交媒体视频和标签存在,大规模预训练仍显著提升了在三个具有挑战性的公开动作识别数据集上的现有技术水平。此外,我们探讨了构建弱监督视频动作数据集时的三个问题。首先,鉴于动作涉及与物体的互动,如何构建一个动词-物体预训练标签空间以最大程度地促进迁移学习?其次,基于帧的模型在动作识别方面表现良好;仅仅为图像特征进行预训练是否足够,还是为时空特征进行预训练对于最佳迁移学习同样重要?最后,相对于短视频而言,长视频中的动作通常定位较差;由于动作标签是在视频级别提供的,在给定固定数量或分钟数的视频预算下,如何选择最佳的视频片段以获得最佳性能?

基准测试

基准方法指标
action-classification-on-kinetics-400irCSN-152 (IG-Kinetics-65M pretrain)
Acc@1: 82.8
egocentric-activity-recognition-on-epic-1R(2+1)D-34 (kinetics)
Actions Top-1 (S2): 16.8
egocentric-activity-recognition-on-epic-1R(2+1)D-152-SE (ig)
Actions Top-1 (S2): 25.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模弱监督预训练在视频动作识别中的应用 | 论文 | HyperAI超神经