3 个月前

对抗性背景感知损失用于弱监督时序动作定位

摘要

近年来，对未剪辑视频中活动的时间定位问题已受到广泛关注。尽管取得了诸多进展，现有的弱监督时间活动定位方法在识别活动未发生的情况方面仍存在困难。为解决这一问题，本文提出了一种名为A2CL-PT的新方法。该方法在特征空间中引入了两组三元组：其中一组用于学习每类活动的判别性特征，另一组则用于区分视频中无活动发生时的背景特征与与活动相关的特征。为进一步提升性能，我们设计了一个由两个并行分支组成的网络结构，二者以对抗方式协同工作：第一个分支负责定位视频中最显著的活动片段，第二个分支则从未被定位的部分中挖掘其他补充性活动。在THUMOS14和ActivityNet数据集上的大量实验结果表明，所提方法具有显著有效性。具体而言，在THUMOS14数据集上，IoU阈值从0.1到0.9的平均mAP指标由27.9%显著提升至30.0%。

代码仓库

kylemin/A2CL-PT

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
weakly-supervised-action-localization-on	A2CL-PT	mAP@0.1:0.5: 46.9 mAP@0.1:0.7: 37.8 mAP@0.5: 30.1
weakly-supervised-action-localization-on-1	A2CL-PT	mAP@0.5: 36.8 mAP@0.5:0.95: 22.5
weakly-supervised-action-localization-on-4	A2CL-PT	mAP@0.5: 30.1
weakly-supervised-action-localization-on-5	A2CL-PT	avg-mAP (0.1-0.5): 46.9 avg-mAP (0.1:0.7): 37.8 avg-mAP (0.3-0.7): 30.6
weakly-supervised-temporal-action	A2CL-PT	mAP IOU@0.1: 61.2 mAP IOU@0.2: 56.1 mAP IOU@0.3: 48.1 mAP IOU@0.4: 39.0 mAP IOU@0.5: 30.1 mAP IOU@0.6: 19.2 mAP IOU@0.7: 10.6 mAP IOU@0.8: 4.8 mAP IOU@0.9: 1.0 mAP@AVG(0.1:0.9): 30.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供