
摘要
近年来,对未剪辑视频中活动的时间定位问题已受到广泛关注。尽管取得了诸多进展,现有的弱监督时间活动定位方法在识别活动未发生的情况方面仍存在困难。为解决这一问题,本文提出了一种名为A2CL-PT的新方法。该方法在特征空间中引入了两组三元组:其中一组用于学习每类活动的判别性特征,另一组则用于区分视频中无活动发生时的背景特征与与活动相关的特征。为进一步提升性能,我们设计了一个由两个并行分支组成的网络结构,二者以对抗方式协同工作:第一个分支负责定位视频中最显著的活动片段,第二个分支则从未被定位的部分中挖掘其他补充性活动。在THUMOS14和ActivityNet数据集上的大量实验结果表明,所提方法具有显著有效性。具体而言,在THUMOS14数据集上,IoU阈值从0.1到0.9的平均mAP指标由27.9%显著提升至30.0%。
代码仓库
kylemin/A2CL-PT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | A2CL-PT | mAP@0.1:0.5: 46.9 mAP@0.1:0.7: 37.8 mAP@0.5: 30.1 |
| weakly-supervised-action-localization-on-1 | A2CL-PT | mAP@0.5: 36.8 mAP@0.5:0.95: 22.5 |
| weakly-supervised-action-localization-on-4 | A2CL-PT | mAP@0.5: 30.1 |
| weakly-supervised-action-localization-on-5 | A2CL-PT | avg-mAP (0.1-0.5): 46.9 avg-mAP (0.1:0.7): 37.8 avg-mAP (0.3-0.7): 30.6 |
| weakly-supervised-temporal-action | A2CL-PT | mAP IOU@0.1: 61.2 mAP IOU@0.2: 56.1 mAP IOU@0.3: 48.1 mAP IOU@0.4: 39.0 mAP IOU@0.5: 30.1 mAP IOU@0.6: 19.2 mAP IOU@0.7: 10.6 mAP IOU@0.8: 4.8 mAP IOU@0.9: 1.0 mAP@AVG(0.1:0.9): 30.0 |