3 个月前

端到端时间动作检测的实证研究

端到端时间动作检测的实证研究

摘要

时间动作检测(Temporal Action Detection, TAD)是视频理解领域中一项重要且具有挑战性的任务。其目标是在未剪辑的视频中,同时预测每个动作实例的语义标签及其时间区间。目前,大多数现有方法采用“仅头部学习”(head-only learning)的范式,即预先对视频编码器进行动作分类任务的训练,仅对编码器之上的检测头进行优化以完成TAD任务。然而,端到端(end-to-end)学习在该任务中的实际效果尚未得到系统性评估。此外,关于端到端TAD中效率与准确率权衡关系的深入研究仍显不足。本文对端到端时间动作检测进行了系统的实证研究。实验结果验证了端到端学习相较于仅头部学习的显著优势,最高可带来11%的性能提升。同时,我们系统考察了多种影响TAD性能与推理速度的设计因素,包括检测头结构、视频编码器选择以及输入视频的分辨率。基于上述分析,我们构建了一个中等分辨率的基线检测器,在保持端到端方法当前最先进性能的同时,推理速度提升了超过4倍。我们期望本研究能为端到端学习在TAD任务中的应用提供指导,并激发该领域未来的研究进展。相关代码与模型已开源,可访问:https://github.com/xlliu7/E2E-TAD。

代码仓库

xlliu7/E2E-TAD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-localization-on-activitynetE2E-TAD (SlowFast R50+TadTR)
mAP: 35.10
mAP IOU@0.5: 50.47
mAP IOU@0.75: 35.99
mAP IOU@0.95: 10.83
temporal-action-localization-on-thumos14E2E-TAD (SlowFast R50+TadTR)
Avg mAP (0.3:0.7): 54.2
mAP IOU@0.3: 69.4
mAP IOU@0.4: 64.3
mAP IOU@0.5: 56.0
mAP IOU@0.6: 46.4
mAP IOU@0.7: 34.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
端到端时间动作检测的实证研究 | 论文 | HyperAI超神经