3 个月前

基于不确定性建模的弱监督时序动作定位

基于不确定性建模的弱监督时序动作定位

摘要

弱监督时序动作定位旨在仅使用视频级标签学习检测动作类别的时序区间。为此,关键在于将属于动作类别的帧与背景帧(即不属于任何动作类别的帧)区分开来。本文从新视角看待背景帧,将其建模为由于不一致性而属于分布外(out-of-distribution)的样本。由此,可通过估计每帧属于分布外的概率(即不确定性)来检测背景帧。然而,在缺乏帧级标签的情况下,直接学习不确定性是不可行的。为在弱监督设定下实现不确定性学习,我们采用多实例学习(Multiple Instance Learning, MIL)的框架。此外,我们进一步引入一种背景熵损失(background entropy loss),通过促使背景帧在所有动作类别上的分布内(in-distribution)概率呈均匀分布,从而更有效地区分背景帧。实验结果表明,所提出的不确定性建模方法能有效缓解背景帧的干扰,并在不依赖复杂技巧的情况下显著提升性能。我们在THUMOS'14和ActivityNet(1.2与1.3版本)基准测试上均显著优于当前最先进的方法。相关代码已开源,地址为:https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling。

代码仓库

基准测试

基准方法指标
weakly-supervised-action-localization-onLee et al.
mAP@0.1:0.5: 51.6
mAP@0.1:0.7: 41.9
mAP@0.5: 33.7
weakly-supervised-action-localization-on-1Lee et al.
mAP@0.5: 37
mAP@0.5:0.95: 23.7
weakly-supervised-action-localization-on-2Lee et al.
Mean mAP: 25.9
mAP@0.5: 41.2
weakly-supervised-action-localization-on-4Lee et al.
mAP@0.5: 33.7
weakly-supervised-action-localization-on-5Lee et al.
avg-mAP (0.1-0.5): 51.6
avg-mAP (0.1:0.7): 41.9
avg-mAP (0.3-0.7): 32.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于不确定性建模的弱监督时序动作定位 | 论文 | HyperAI超神经