3 个月前

PivoTAL:面向弱监督时间动作定位的先验驱动监督

PivoTAL:面向弱监督时间动作定位的先验驱动监督

摘要

弱监督时间动作定位(Weakly-supervised Temporal Action Localization, WTAL)旨在仅使用视频级别的标签,对未剪辑视频中的动作进行定位。当前大多数方法从“分类驱动定位”的视角出发,即先对视频中的每一帧进行分类,再通过人工设计的后处理流程将帧级预测结果聚合为动作片段。然而,由于这一范式限制,模型缺乏对动作边界显式的理解,往往仅关注视频中最具判别性的局部区域,导致动作定位不完整。为解决上述问题,本文提出 PivoTAL(Prior-driven Supervision for Weakly-supervised Temporal Action Localization),从“定位驱动定位”的新视角出发,直接学习动作片段的定位。为此,PivoTAL 利用视频中固有的时空规律,引入三类先验知识:特定动作的场景先验(action-specific scene prior)、动作片段生成先验(action snippet generation prior)以及可学习的高斯先验(learnable Gaussian prior),以指导基于定位的训练过程。实验结果表明,PivoTAL 在基准数据集 THUMOS-14 和 ActivityNet-v1.3 上均显著优于现有方法,平均mAP提升至少3个百分点,展现出强大的性能优势。

基准测试

基准方法指标
weakly-supervised-action-localization-onPivoTAL
mAP@0.1:0.5: 60.1
mAP@0.1:0.7: 49.6
mAP@0.5: 42.8
weakly-supervised-action-localization-on-1PivoTAL
mAP@0.5: 45.1
mAP@0.5:0.95: 28.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PivoTAL:面向弱监督时间动作定位的先验驱动监督 | 论文 | HyperAI超神经