3 个月前

用于多标签时间动作检测的双路 DETR

用于多标签时间动作检测的双路 DETR

摘要

时间动作检测(Temporal Action Detection, TAD)旨在从未剪辑的视频中识别出动作的起止时间边界及其对应类别。受目标检测中DETR架构成功的启发,已有多种方法将基于查询(query-based)的框架引入TAD任务。然而,这些方法主要沿袭DETR的范式,仅在实例级别进行动作预测(即通过中心点定位每个动作),导致边界定位性能不佳。为解决这一问题,本文提出一种新型的双层级查询式TAD框架——DualDETR,能够同时从实例级和边界级两个层面检测动作。由于不同层级的解码需要不同粒度的语义信息,我们设计了一种双分支解码结构,分别构建适用于不同层级的独立解码过程,从而有效捕捉各层级的时序特征与语义信息。在此双分支架构基础上,我们进一步提出一种联合查询初始化策略,以实现两个层级查询之间的对齐。具体而言,利用编码器生成的候选框,以一对一的方式匹配来自两个层级的查询,并基于匹配到的动作候选框所提供的位置与内容先验信息对查询进行初始化。经过对齐的双层级查询在后续解码过程中能够通过互补线索对初始候选框进行精细化修正。我们在三个具有挑战性的多标签TAD基准数据集上对DualDETR进行了评估,实验结果表明,该方法显著优于现有最先进方法,在det-mAP指标上实现显著提升,并在seg-mAP指标上取得优异表现。

基准测试

基准方法指标
temporal-action-localization-on-multithumos-1DualDETR (I3D-rgb)
Average mAP: 32.64
mAP IOU@0.1: 53.42
mAP IOU@0.3: 47.41
mAP IOU@0.5: 35.18
mAP IOU@0.7: 20.18
mAP IOU@0.9: 4.02
temporal-action-localization-on-thumos14DualDETR (I3D features)
Avg mAP (0.3:0.7): 66.8
mAP IOU@0.3: 82.9
mAP IOU@0.4: 78.0
mAP IOU@0.5: 70.4
mAP IOU@0.6: 58.5
mAP IOU@0.7: 44.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于多标签时间动作检测的双路 DETR | 论文 | HyperAI超神经