3 个月前

PAT:用于密集多标签动作检测的位置感知Transformer

PAT:用于密集多标签动作检测的位置感知Transformer

摘要

我们提出PAT(Position-aware Transformer),一种基于Transformer的网络架构,通过利用多尺度时间特征,学习视频中复杂的时间共现动作依赖关系。在现有方法中,Transformer中的自注意力机制会丢失关键的时间位置信息,而这一信息对于鲁棒的动作检测至关重要。为解决该问题,我们(i)在自注意力机制中引入相对位置编码,以保留时间位置信息;(ii)设计了一种新颖的非分层网络结构,以捕捉多尺度时间关系,这与近期基于Transformer的方法所采用的分层结构形成对比。我们认为,分层结构中将自注意力机制与多级下采样过程相结合,会导致位置信息的显著丢失。我们在两个具有挑战性的密集多标签基准数据集上评估了所提方法的性能,结果表明,PAT在Charades数据集和MultiTHUMOS数据集上分别将当前最优结果提升了1.1%和0.6%的mAP,分别达到新的最先进水平——26.5%和44.6%的mAP。此外,我们还进行了广泛的消融实验,以系统分析所提出网络中各组件的贡献与影响。

基准测试

基准方法指标
action-detection-on-charadesPAT
mAP: 26.5
action-detection-on-multithumos-1PAT
mAP: 44.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PAT:用于密集多标签动作检测的位置感知Transformer | 论文 | HyperAI超神经