3 个月前

从点中学习动作完整性用于弱监督时间动作定位

摘要

我们针对仅以单帧标签对每个动作实例进行训练时的动作时序区间定位问题展开研究。由于标签稀疏，现有方法难以学习动作的完整性，导致预测结果往往为片段化的动作。本文提出一种新颖的框架，通过生成密集的伪标签，为模型提供完整性指导。具体而言，我们首先选取伪背景点以补充点级动作标签；随后，以这些点作为种子，在保证与种子一致的前提下，搜索最可能包含完整动作实例的最优序列。为了从所得序列中学习动作完整性，我们引入两种新颖的损失函数，分别从动作得分和特征相似性两个角度，对比动作实例与背景区域。实验结果表明，该完整性指导显著提升了模型定位完整动作实例的能力，尤其在高IoU阈值下性能提升尤为显著。此外，我们在四个基准数据集（THUMOS'14、GTEA、BEOID 和 ActivityNet）上验证了所提方法优于现有最先进方法的性能。值得注意的是，我们的方法在仅需现有全监督方法约六分之一标注成本的情况下，性能已可与近期全监督方法相媲美。相关代码已开源，地址为：https://github.com/Pilhyeon。

代码仓库

Pilhyeon/Learning-Action-Completeness-from-Points

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
weakly-supervised-action-localization-on	LACP	mAP@0.1:0.5: 62.7 mAP@0.1:0.7: 52.8 mAP@0.5: 45.3
weakly-supervised-action-localization-on-1	LACP	mAP@0.5: 40.4 mAP@0.5:0.95: 25.1
weakly-supervised-action-localization-on-2	LACP	Mean mAP: 26.8 mAP@0.5: 44
weakly-supervised-action-localization-on-4	LACP	mAP@0.5: 45.3
weakly-supervised-action-localization-on-5	LACP	avg-mAP (0.1-0.5): 62.7 avg-mAP (0.1:0.7): 52.8 avg-mAP (0.3-0.7): 44.5
weakly-supervised-action-localization-on-6	LACP	mAP@0.1:0.7: 51.8 mAP@0.5: 42.7
weakly-supervised-action-localization-on-gtea	LACP	mAP@0.1:0.7: 43.5 mAP@0.5: 33.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供