
摘要
最近提出的基于神经网络的时序动作检测(Temporal Action Detection, TAD)模型在从复杂场景中提取判别特征表示和建模不同长度的动作实例方面存在固有限制,主要原因是这些模型采用了共享权重的检测头。受动态神经网络成功案例的启发,本文构建了一种新颖的动态特征聚合(Dynamic Feature Aggregation, DFA)模块,该模块能够在不同的时间戳上同时自适应调整卷积核权重和感受野。基于DFA,所提出的动态编码器层在动作时间范围内聚合时序特征,并保证了提取特征表示的判别能力。此外,利用DFA有助于开发一种动态TAD头部(Dynamic TAD Head, DyHead),该头部通过调整参数和学习到的感受野自适应地聚合多尺度特征,从而更好地从视频中检测具有不同范围的动作实例。借助所提出的编码器层和DyHead,新的动态TAD模型DyFADet在一系列具有挑战性的TAD基准测试中取得了令人鼓舞的性能表现,包括HACS-Segment、THUMOS14、ActivityNet-1.3、Epic-Kitchen 100、Ego4D-Moment Queries V1.0和FineAction。代码已发布至https://github.com/yangle15/DyFADet-pytorch。
代码仓库
yangle15/DyFADet-pytorch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-action-localization-on-fineaction | DyFADet (VideoMAE v2-g) | mAP: 23.8 mAP IOU@0.5: 37.1 mAP IOU@0.75: 23.7 mAP IOU@0.95: 5.9 |
| temporal-action-localization-on-hacs | DyFADet(VideoMAEv2) | Average-mAP: 44.3 mAP@0.5: 64.0 mAP@0.75: 44.8 mAP@0.95: 14.1 |