3 个月前

TemporalMaxer:仅使用最大池化实现时序上下文最大化用于时序动作定位

TemporalMaxer:仅使用最大池化实现时序上下文最大化用于时序动作定位

摘要

时间动作定位(Temporal Action Localization, TAL)是视频理解领域中一项具有挑战性的任务,其目标是在视频序列中识别并精确定位各类动作。近年来的研究强调了在提取的视频片段特征上应用长期时间上下文建模(Temporal Context Modeling, TCM)模块的重要性,例如采用复杂的自注意力机制。本文提出了一种迄今为止最为简洁的方法来应对该任务,并论证了:仅依靠提取的视频片段特征本身,即可实现卓越的性能,而无需依赖复杂的网络架构。为此,我们提出了TemporalMaxer,该方法在最小化长期时间上下文建模的同时,通过一个基础、无参数且仅作用于局部区域的最大池化(max-pooling)模块,最大化地利用提取的视频片段特征中的信息。该模块仅保留相邻及局部片段嵌入中最关键的信息,从而构建出更为高效的TAL模型。实验结果表明,TemporalMaxer在多个主流TAL数据集上均优于采用长期TCM(如自注意力机制)的现有先进方法,同时显著减少了模型参数量与计算资源消耗。本文所提方法的代码已公开,可访问 https://github.com/TuanTNG/TemporalMaxer 获取。

代码仓库

tuantng/temporalmaxer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-localization-on-epic-kitchensTemporalMaxer (verb)
Avg mAP (0.1-0.5): 24.5
mAP IOU@0.1: 27.8
mAP IOU@0.2: 26.6
mAP IOU@0.3: 25.3
mAP IOU@0.4: 23.1
mAP IOU@0.5: 19.9
temporal-action-localization-on-multithumos-1TemporalMaxer
Average mAP: 29.9
mAP IOU@0.1: 49.1
mAP IOU@0.2: 47.5
mAP IOU@0.3: 44.3
mAP IOU@0.4: 39.4
mAP IOU@0.5: 33.4
mAP IOU@0.6: 26.5
mAP IOU@0.7: 17.4
mAP IOU@0.8: 9.1
mAP IOU@0.9: 2.24
temporal-action-localization-on-musesTemporalMaxer
mAP: 27.2
mAP@0.3: 36.7
mAP@0.4: 33.2
mAP@0.5: 27.8
mAP@0.6: 21.9
mAP@0.7: 16.2
temporal-action-localization-on-thumos14TemporalMaxer (I3D features)
Avg mAP (0.3:0.7): 67.7
mAP IOU@0.3: 82.8
mAP IOU@0.4: 78.9
mAP IOU@0.5: 71.8
mAP IOU@0.6: 60.5
mAP IOU@0.7: 44.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TemporalMaxer:仅使用最大池化实现时序上下文最大化用于时序动作定位 | 论文 | HyperAI超神经