
摘要
时间动作检测(Temporal Action Detection, TAD)旨在识别未剪辑视频中每个动作实例的语义标签及其时间区间,是视频理解领域的一项基础且具有挑战性的任务。以往的方法通常采用复杂的处理流程,往往需要训练多个网络,并依赖于人工设计的操作(如非极大值抑制和锚框生成),这不仅限制了模型的灵活性,也阻碍了端到端的学习。本文提出一种基于Transformer的端到端时间动作检测方法,命名为TadTR。该方法仅需少量可学习的嵌入向量(称为动作查询),即可自适应地从视频中提取每个查询对应的时间上下文信息,并直接基于上下文预测动作实例。为使Transformer更好地适应TAD任务,本文提出了三项改进以增强其局部性感知能力。核心是提出一种时间可变形注意力模块,该模块能够有选择地关注视频中稀疏的关键片段。此外,设计了片段细化机制与动作置信度回归头,分别用于优化预测结果的时间边界和置信度评分。得益于这一简洁的架构,TadTR在计算成本上显著低于以往检测器,同时保持了卓越的性能表现。作为独立完整的检测器,TadTR在THUMOS14数据集上达到56.7%的mAP,在HACS Segments数据集上达到32.09%的mAP,均达到当前最优水平;结合额外的动作分类器后,在ActivityNet-1.3数据集上进一步取得36.75%的mAP。代码已开源,地址为:https://github.com/xlliu7/TadTR。
代码仓库
xlliu7/TadTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-action-localization-on-activitynet | TadTR (TSP features) | mAP: 36.75 mAP IOU@0.5: 53.62 mAP IOU@0.75: 37.52 mAP IOU@0.95: 10.56 |
| temporal-action-localization-on-hacs | TadTr (I3D RGB) | Average-mAP: 32.09 mAP@0.5: 47.14 mAP@0.75: 32.11 mAP@0.95: 10.94 |
| temporal-action-localization-on-thumos14 | TadTR | Avg mAP (0.3:0.7): 56.7 mAP IOU@0.3: 74.8 mAP IOU@0.4: 69.1 mAP IOU@0.5: 60.1 mAP IOU@0.6: 46.6 mAP IOU@0.7: 32.8 |