3 个月前

弱监督自监督预训练用于时序动作检测

弱监督自监督预训练用于时序动作检测

摘要

时间活动检测(Temporal Activity Detection)旨在对视频中的每一帧预测其活动类别,这与活动分类(Activity Classification,即活动识别)中仅进行视频级别预测的任务形成对比。由于检测任务需要耗费大量成本的帧级标注,现有的检测数据集规模普遍有限。因此,以往的研究通常采用在大规模分类数据集(如Kinetics-400)上预训练的分类模型进行微调。然而,这类预训练模型在下游检测任务中表现并不理想,原因在于预训练任务与下游微调任务之间存在显著差异。在本工作中,我们提出了一种新颖的“弱监督引导自监督”预训练方法,专门面向时间活动检测任务。该方法利用弱标签(即视频级分类标签),通过生成帧级伪标签、多动作帧以及动作片段,构建自监督的预训练任务(即检测任务)。简而言之,我们在无需额外标注的前提下,基于大规模分类数据,设计了一个与下游检测任务高度相似的自监督检测任务进行模型预训练。实验结果表明,采用所提出的弱监督引导自监督检测预训练方法得到的模型,在多个具有挑战性的活动检测基准数据集上(包括Charades和MultiTHUMOS)均显著优于现有方法。此外,我们通过大量消融实验,深入揭示了该方法在何种场景下以及如何有效应用于活动检测任务。相关代码已开源,地址为:https://github.com/kkahatapitiya/SSDet。

代码仓库

kkahatapitiya/SSDet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-detection-on-charadesCoarse-Fine Networks (w/ self-supervised detection pretraining)
mAP: 26.95

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弱监督自监督预训练用于时序动作检测 | 论文 | HyperAI超神经