3 个月前

点级时间动作定位:连接全监督提议与弱监督损失

点级时间动作定位:连接全监督提议与弱监督损失

摘要

点级时间动作定位(Point-Level Temporal Action Localization, PTAL)旨在仅依赖每个动作实例的一个时间戳标注,对未剪辑视频中的动作进行定位。现有方法通常采用帧级预测范式,从稀疏的单帧标签中学习,但此类框架不可避免地面临解空间过大的问题。本文尝试探索基于提议(proposal-based)的预测范式来处理点级标注,该范式具有更受约束的解空间,并能保证相邻帧间预测结果的一致性。首先,利用点级标注作为关键点监督信号,训练一个关键点检测器;在位置预测阶段,引入一个简单而有效的映射模块(mapper module),该模块支持梯度反向传播,从而实现从全监督框架向弱监督设置的平滑过渡。据我们所知,这是首个将全监督范式应用于点级标注设置的工作。在THUMOS14、BEOID和GTEA数据集上的实验结果表明,所提出方法在定性和定量两个方面均表现出优越性能,显著优于当前最先进的方法。

基准测试

基准方法指标
weakly-supervised-action-localization-onJu et al.
mAP@0.1:0.5: 55.6
mAP@0.1:0.7: 44.8
mAP@0.5: 35.9
weakly-supervised-action-localization-on-4Ju et al.
mAP@0.5: 35.9
weakly-supervised-action-localization-on-5Ju et al.
avg-mAP (0.1-0.5): 55.6
avg-mAP (0.1:0.7): 44.8
avg-mAP (0.3-0.7): 35.4
weakly-supervised-action-localization-on-6Ju et al.
mAP@0.1:0.7: 34.9
mAP@0.5: 20.9
weakly-supervised-action-localization-on-gteaJu et al.
mAP@0.1:0.7: 33.7
mAP@0.5: 21.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
点级时间动作定位:连接全监督提议与弱监督损失 | 论文 | HyperAI超神经