4 个月前

弱监督细粒度视频中的层次原子动作检测

弱监督细粒度视频中的层次原子动作检测

摘要

动作理解已进入细粒度时代,因为大多数现实生活中的行为只有细微的差异。为了以高效利用标签的方式准确检测这些细粒度动作,我们首次解决了视频中弱监督细粒度时序动作检测的问题。由于缺乏对细粒度动作之间细微差异的精心设计,以往用于一般动作检测的弱监督模型在细粒度场景下表现不佳。我们提出将动作建模为可重用原子动作的组合,这些原子动作通过自监督聚类从数据中自动发现,从而捕捉细粒度动作的共性和个性。所学习到的原子动作由视觉概念表示,并进一步利用语义标签层次结构映射到细粒度和粗粒度的动作标签。我们的方法构建了四个层级的视觉表征层次结构:片段级、原子动作级、细粒度动作类别级和粗粒度动作类别级,并在每个层级进行监督。在两个大规模细粒度视频数据集 FineAction 和 FineGym 上进行的大量实验表明,我们提出的弱监督模型在细粒度动作检测方面具有显著优势,并且达到了当前最佳的效果。

代码仓库

lizhi1104/haan
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
weakly-supervised-action-localization-on-7HAAN
mAP: 4.10
mAP IOU@0.5: 7.05
mAP IOU@0.75: 3.95
mAP IOU@0.95: 1.14

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弱监督细粒度视频中的层次原子动作检测 | 论文 | HyperAI超神经