
摘要
时间动作检测(Temporal Action Detection, TAD)是视频理解领域中一项关键且具有挑战性的任务,旨在从长时、未剪辑的视频中检测出每个动作实例的类别及其起止帧。当前大多数模型采用RGB流与光流(Optical-Flow)双流架构来完成TAD任务。然而,这一方法要求将原始RGB帧手动转换为光流帧,不仅引入额外的计算开销,还显著增加处理时间,成为实现实时处理的主要障碍。目前,多数方法采用两阶段策略,需经过候选片段生成与分类两个阶段,导致推理速度下降,且在候选框生成环节需要复杂的超参数调优。相比之下,本文提出一种仅基于RGB流的一阶段无锚框(anchor-free)时间定位方法,并设计了一种新颖的牛顿力学-多层感知机(Newtonian Mechanics-MLP)架构。该方法在保持与现有最先进模型相当的检测精度的同时,显著提升了推理速度。在THUMOS14数据集上,该方法的典型推理速度高达每秒4.44帧,表现极为出色。在实际应用中,由于无需进行光流转换,推理速度将进一步提升。此外,本研究也验证了多层感知机(MLP)在下游任务(如TAD)中具有巨大潜力。相关源代码已开源,地址为:https://github.com/BonedDeng/TadML。
代码仓库
boneddeng/tadml
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-thumos-14 | TadML-two stream | mAP: 59.7 |
| action-detection-on-thumos-14 | TadML-rgb | mAP: 53.46 |
| temporal-action-localization-on-thumos14 | TadML(two-stream) | Avg mAP (0.3:0.7): 59.70 mAP IOU@0.3: 73.29 mAP IOU@0.4: 69.73 mAP IOU@0.5: 62.53 mAP IOU@0.6: 53.36 mAP IOU@0.7: 39.60 |
| temporal-action-localization-on-thumos14 | TadML(rgb-only) | Avg mAP (0.3:0.7): 53.46 mAP IOU@0.3: 68.78 mAP IOU@0.4: 64.66 mAP IOU@0.5: 56.61 mAP IOU@0.6: 45.40 mAP IOU@0.7: 31.88 |