
摘要
目前最先进的未剪辑视频时序动作定位(Temporal Action Localization, TAL)架构仅考虑了RGB与光流(Flow)模态,完全忽略了信息丰富的音频模态。尽管音频融合已在相关但相对更简单的剪辑级(clip-level)动作识别任务中得到探索,但TAL面临独特的挑战。本文提出了一种简单而有效的基于融合的TAL方法。据我们所知,本工作是首个在监督式TAL任务中联合考虑音频与视频模态的研究。实验结果表明,我们的方法能够持续提升当前最先进的纯视频TAL方法的性能。具体而言,该方法在大规模基准数据集上实现了新的最优性能:在ActivityNet-1.3数据集上达到54.34 mAP@0.5,在THUMOS14数据集上达到57.18 mAP@0.5。我们的实验涵盖了多种融合策略、模态组合以及TAL架构的消融研究。相关代码、模型及数据已公开,详见:https://github.com/skelemoa/tal-hmo。
代码仓库
skelemoa/tal-hmo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-action-localization-on-activitynet | AVFusion | mAP: 36.82 mAP IOU@0.5: 54.34 mAP IOU@0.75: 37.66 mAP IOU@0.95: 8.93 |
| temporal-action-localization-on-thumos-14 | AVFusion | mAP IOU@0.5: 57.18 |
| temporal-action-localization-on-thumos14 | AVFusion | Avg mAP (0.3:0.7): 53.3 mAP IOU@0.3: 70.1 mAP IOU@0.4: 64.9 mAP IOU@0.5: 57.1 mAP IOU@0.6: 45.4 mAP IOU@0.7: 28.8 |