
摘要
时间动作检测(Temporal Action Detection, TAD)在视频理解领域受到广泛关注,其主流方法通常借鉴图像目标检测的流程。然而,当前TAD方法普遍存在设计复杂的问题,例如采用双流特征提取、多阶段训练、复杂的时序建模以及全局上下文融合等技术。本文并不旨在提出新的TAD技术,而是针对当前方法中普遍存在的设计复杂性和检测效率低下的现状,提出一个简单、直接但至关重要的基础模型。我们所提出的简单基线方法(命名为BasicTAD)将TAD流程分解为若干核心组件:数据采样、主干网络设计、颈部结构构建以及检测头设计。我们系统地研究了各组件中现有的技术方案,并尤为重要的是,得益于结构的简洁性,实现了整个流程的端到端训练。实验结果表明,这一简洁的BasicTAD在仅使用RGB输入的情况下,取得了接近当前最先进双流方法的优异性能,且具备实时推理能力,构成了一项极具竞争力的基线。在此基础上,我们进一步通过在网络表示中保留更多时空信息,提出了改进版本PlusTAD。实验证明,PlusTAD在THUMOS14和FineAction数据集上均表现出显著优于先前方法的性能,同时保持了极高的效率。此外,我们对所提出方法进行了深入的可视化分析与错误诊断,旨在为TAD任务的本质特性提供更深刻的洞见。本研究所提出的框架可作为未来TAD研究的强有力基准。相关代码与模型将开源发布于:https://github.com/MCG-NJU/BasicTAD。
代码仓库
cg1177/dcan
pytorch
GitHub 中提及
mcg-nju/basictad
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-action-localization-on-thumos14 | BasicTAD (160,6,192,R50-SlowOnly) | Avg mAP (0.3:0.7): 59.6 mAP IOU@0.3: 75.5 mAP IOU@0.4: 70.8 mAP IOU@0.5: 63.5 mAP IOU@0.6: 50.9 mAP IOU@0.7: 37.4 |
| temporal-action-localization-on-thumos14 | BasicTAD (112,3,96,R50-SlowOnly) | Avg mAP (0.3:0.7): 54.9 mAP IOU@0.3: 68.4 mAP IOU@0.4: 65.0 mAP IOU@0.5: 58.6 mAP IOU@0.6: 49.2 mAP IOU@0.7: 33.5 |
| temporal-action-localization-on-thumos14-2 | BasicTAD (R50-SlowOnly) | Avg mAP (0.3:0.7): 59.6 |