6 个月前

摘要

时间动作检测（Temporal Action Detection, TAD）在视频理解领域受到广泛关注，其主流方法通常借鉴图像目标检测的流程。然而，当前TAD方法普遍存在设计复杂的问题，例如采用双流特征提取、多阶段训练、复杂的时序建模以及全局上下文融合等技术。本文并不旨在提出新的TAD技术，而是针对当前方法中普遍存在的设计复杂性和检测效率低下的现状，提出一个简单、直接但至关重要的基础模型。我们所提出的简单基线方法（命名为BasicTAD）将TAD流程分解为若干核心组件：数据采样、主干网络设计、颈部结构构建以及检测头设计。我们系统地研究了各组件中现有的技术方案，并尤为重要的是，得益于结构的简洁性，实现了整个流程的端到端训练。实验结果表明，这一简洁的BasicTAD在仅使用RGB输入的情况下，取得了接近当前最先进双流方法的优异性能，且具备实时推理能力，构成了一项极具竞争力的基线。在此基础上，我们进一步通过在网络表示中保留更多时空信息，提出了改进版本PlusTAD。实验证明，PlusTAD在THUMOS14和FineAction数据集上均表现出显著优于先前方法的性能，同时保持了极高的效率。此外，我们对所提出方法进行了深入的可视化分析与错误诊断，旨在为TAD任务的本质特性提供更深刻的洞见。本研究所提出的框架可作为未来TAD研究的强有力基准。相关代码与模型将开源发布于：https://github.com/MCG-NJU/BasicTAD。

源 PDF