3 个月前

PDAN:用于动作检测的金字塔空洞注意力网络

PDAN:用于动作检测的金字塔空洞注意力网络

摘要

处理长时序且复杂的时序信息是动作检测任务中的一个重要挑战,而这一挑战在未剪辑视频中密集分布的动作背景下进一步加剧。以往的动作检测方法在长视频中难以有效筛选关键时序信息。为此,我们提出了一种膨胀注意力层(Dilated Attention Layer, DAL)。与传统的时序卷积层相比,DAL在卷积核内的局部帧上分配注意力权重,从而能够更好地学习跨时间的局部表征。此外,我们进一步构建了金字塔膨胀注意力网络(Pyramid Dilated Attention Network, PDAN),其基础即为DAL。通过引入具有不同膨胀率的多个DAL,PDAN能够在低与高时间感受野层级上分别聚焦于局部时序片段,从而同时建模短时与长时序依赖关系。这一特性使PDAN能够有效处理长未剪辑视频中不同动作实例之间的复杂时序关联。为验证所提方法的有效性与鲁棒性,我们在三个密集标注且支持多标签的基准数据集上进行了评估:MultiTHUMOS、Charades 以及 Toyota Smarthome Untrimmed (TSU) 数据集。实验结果表明,PDAN在所有这些数据集上均优于此前的最先进方法。

基准测试

基准方法指标
action-detection-on-charadesPDAN (RGB+Flow)
mAP: 26.5
action-detection-on-multi-thumosPDAN
mAP: 47.6
action-detection-on-tsuPDAN
Frame-mAP: 32.7
temporal-action-localization-on-multithumos-1PDAN
Average mAP: 17.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PDAN:用于动作检测的金字塔空洞注意力网络 | 论文 | HyperAI超神经