3 个月前

DCAN:通过双上下文聚合提升时序动作检测

DCAN:通过双上下文聚合提升时序动作检测

摘要

时间动作检测旨在定位视频中动作的起止边界。当前基于边界匹配的方法通过枚举并计算所有可能的边界匹配来生成候选片段,然而这类方法忽略了边界预测中的长程上下文信息聚合。同时,由于相邻匹配具有相似的语义,对密集生成的匹配进行局部语义聚合难以提升语义丰富性与区分度。为此,本文提出一种端到端的候选生成方法——双层上下文聚合网络(Dual Context Aggregation Network, DCAN),通过在边界层级与候选片段层级两个层面实现上下文聚合,以生成高质量的动作候选片段,从而提升时间动作检测的性能。具体而言,我们设计了多路径时间上下文聚合模块(Multi-Path Temporal Context Aggregation, MTCA),以实现边界层级上的平滑上下文聚合,并精确评估边界位置。针对匹配关系的评估,我们进一步提出了粗到精匹配机制(Coarse-to-Fine Matching, CFM),在候选片段层级上聚合上下文信息,并逐步从粗粒度到细粒度优化匹配图。我们在 ActivityNet v1.3 和 THUMOS-14 两个标准数据集上进行了大量实验。实验结果表明,DCAN 在 ActivityNet v1.3 上取得了 35.39% 的平均 mAP,在 THUMOS-14 上于 IoU@0.5 条件下达到 54.14% 的 mAP,充分证明了该方法能够生成高质量的动作候选片段,并达到了当前最优的检测性能。相关代码已开源,地址为:https://github.com/cg1177/DCAN。

代码仓库

cg1177/dcan
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-localization-on-activitynetDCAN (TSN features)
mAP: 35.39
mAP IOU@0.5: 51.78
mAP IOU@0.75: 35.98
mAP IOU@0.95: 9.45
temporal-action-localization-on-thumos14DCAN (TSN features)
Avg mAP (0.3:0.7): 52.3
mAP IOU@0.3: 68.2
mAP IOU@0.4: 62.7
mAP IOU@0.5: 54.1
mAP IOU@0.6: 43.9
mAP IOU@0.7: 32.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DCAN:通过双上下文聚合提升时序动作检测 | 论文 | HyperAI超神经