Chuming LinJian LiYabiao WangYing TaiDonghao LuoZhipeng CuiChengjie WangJilin LiFeiyue HuangRongrong Ji

摘要
生成时间动作提案(temporal action proposals)仍然是一个极具挑战性的问题,其核心难点在于如何在长时且未剪辑的真实视频中准确预测动作提案的时序边界,并获得可靠的动作置信度。本文提出一种高效且统一的框架——密集边界生成器(Dense Boundary Generator, DBG),该框架受边界敏感方法的启发,针对密集分布的动作提案同时实现边界分类与动作完整度回归。具体而言,DBG由两个关键模块构成:时序边界分类模块(Temporal Boundary Classification, TBC)和动作感知完整度回归模块(Action-aware Completeness Regression, ACR)。其中,TBC利用低层双流特征生成两个时序边界置信度图,而ACR则通过高层动作感知特征生成动作完整度得分图。此外,本文引入一种双流基础网络(Dual Stream BaseNet, DSB),用于联合编码RGB图像与光流信息,从而有效捕捉具有判别性的边界特征与动作性特征。在ActivityNet-1.3和THUMOS14两个主流基准数据集上的大量实验表明,DBG在生成性能上显著优于当前最先进的提案生成方法(如MGG和BMN)。本文代码将在论文发表后公开。
代码仓库
812618101/TAL-Demo
GitHub 中提及
ttengwang/ESGN
pytorch
GitHub 中提及
Tencent/ActionDetection-DBG
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-action-localization-on-fineaction | DBG (i3d feature) | mAP: 6.75 mAP IOU@0.5: 10.65 mAP IOU@0.75: 6.43 mAP IOU@0.95: 2.50 |