3 个月前

弱监督时间动作定位中的完整性建模与上下文分离

弱监督时间动作定位中的完整性建模与上下文分离

摘要

时间动作定位在理解未剪辑视频中具有重要意义。本文首先识别出弱监督学习框架下时间动作定位所面临的两个尚未充分探索的问题:动作完整性建模与动作-上下文分离。为此,我们提出一种新颖的网络架构及其训练策略,以显式地解决上述两个问题。具体而言,为建模动作的完整性,我们设计了一种多分支神经网络结构,其中各分支被强制学习识别具有差异性的动作片段。通过融合不同分支的激活响应,可实现对完整动作的有效定位。为实现动作实例与其周围上下文的有效分离,我们利用“静止视频片段极大概率不属于动作”这一先验知识,生成困难负样本用于训练,从而增强模型对动作边界的区分能力。在THUMOS'14和ActivityNet数据集上的实验结果表明,所提出的框架显著优于现有最先进方法。特别是在ActivityNet v1.2数据集上,平均mAP指标从18.0%显著提升至22.4%。相关代码将很快公开发布。

基准测试

基准方法指标
weakly-supervised-action-localization-onCMCS
mAP@0.1:0.7: 32.4
mAP@0.5: 23.1
weakly-supervised-action-localization-on-1CMCS
mAP@0.5:0.95: 21.2
weakly-supervised-action-localization-on-2CMCS
mAP@0.5: 36.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弱监督时间动作定位中的完整性建模与上下文分离 | 论文 | HyperAI超神经