3 个月前

听我说:用于音频增强时序动作定位的融合方法

听我说:用于音频增强时序动作定位的融合方法

摘要

目前最先进的未剪辑视频时序动作定位(Temporal Action Localization, TAL)架构仅考虑了RGB与光流(Flow)模态,完全忽略了信息丰富的音频模态。尽管音频融合已在相关但相对更简单的剪辑级(clip-level)动作识别任务中得到探索,但TAL面临独特的挑战。本文提出了一种简单而有效的基于融合的TAL方法。据我们所知,本工作是首个在监督式TAL任务中联合考虑音频与视频模态的研究。实验结果表明,我们的方法能够持续提升当前最先进的纯视频TAL方法的性能。具体而言,该方法在大规模基准数据集上实现了新的最优性能:在ActivityNet-1.3数据集上达到54.34 mAP@0.5,在THUMOS14数据集上达到57.18 mAP@0.5。我们的实验涵盖了多种融合策略、模态组合以及TAL架构的消融研究。相关代码、模型及数据已公开,详见:https://github.com/skelemoa/tal-hmo。

代码仓库

skelemoa/tal-hmo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-localization-on-activitynetAVFusion
mAP: 36.82
mAP IOU@0.5: 54.34
mAP IOU@0.75: 37.66
mAP IOU@0.95: 8.93
temporal-action-localization-on-thumos-14AVFusion
mAP IOU@0.5: 57.18
temporal-action-localization-on-thumos14AVFusion
Avg mAP (0.3:0.7): 53.3
mAP IOU@0.3: 70.1
mAP IOU@0.4: 64.9
mAP IOU@0.5: 57.1
mAP IOU@0.6: 45.4
mAP IOU@0.7: 28.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
听我说:用于音频增强时序动作定位的融合方法 | 论文 | HyperAI超神经