4 个月前

重新审视弱监督时序动作定位中的前景与背景分离:一种基于聚类的方法

重新审视弱监督时序动作定位中的前景与背景分离:一种基于聚类的方法

摘要

弱监督时间动作定位的目标是在仅有视频级别动作标签的情况下,精确定位视频中的动作实例。现有方法主要采用基于分类的定位流程,通过视频分类损失来优化片段级别的预测。然而,这种公式化方法在分类和检测之间存在差异,导致前景和背景(F&B)片段的分离不够准确。为了解决这一问题,我们提出利用无监督片段聚类来探索片段之间的潜在结构,而不是过度依赖视频分类损失。具体而言,我们提出了一种新的基于聚类的F&B分离算法。该算法包含两个核心组件:一个片段聚类组件,将片段分组到多个潜在聚类中;一个聚类分类组件,进一步将这些聚类分类为前景或背景。由于没有真实标签来训练这两个组件,我们引入了一种基于最优传输的统一自标记机制,生成高质量的伪标签以匹配几种合理的先验分布。这确保了片段的聚类分配可以准确地与其F&B标签相关联,从而提升F&B分离的效果。我们在三个基准数据集上评估了我们的方法:THUMOS14、ActivityNet v1.2 和 v1.3。我们的方法在这三个基准数据集上均取得了令人鼓舞的性能,并且相比之前的方法显著更轻量级。代码可在 https://github.com/Qinying-Liu/CASE 获取。

代码仓库

qinying-liu/case
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
weakly-supervised-action-localization-onCASE + Zhou et al.
mAP@0.1:0.7: 49.2
weakly-supervised-action-localization-onCASE
mAP@0.1:0.5: 57.1
mAP@0.1:0.7: 46.2
weakly-supervised-action-localization-on-1CASE
mAP@0.5: 43.2
mAP@0.5:0.95: 26.8
weakly-supervised-action-localization-on-2CASE
Mean mAP: 27.9
mAP@0.5: 43.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视弱监督时序动作定位中的前景与背景分离:一种基于聚类的方法 | 论文 | HyperAI超神经