3 个月前

具有增强即时可区分性的时序动作定位

具有增强即时可区分性的时序动作定位

摘要

时间动作检测(Temporal Action Detection, TAD)旨在从未剪辑的视频中检测出所有动作的起止边界及其对应类别。然而,视频中动作边界的模糊性常常导致现有方法在预测动作边界时精度不足。为解决这一问题,本文提出一种单阶段框架——TriDet。首先,我们设计了一种三重头结构(Trident-head),通过建模边界附近的相对概率分布来更精确地刻画动作边界。其次,针对基于Transformer的方法中存在的排序损失问题(即瞬间可区分性退化),我们提出一种高效且可扩展的粒度感知(Scalable-Granularity Perception, SGP)模块,以缓解该问题。为进一步提升视频主干网络在瞬间可区分性方面的性能,我们利用预训练大模型强大的表示能力,并系统研究其在TAD任务上的表现。最后,考虑到分类任务对时空上下文信息的充分依赖,我们设计了一种解耦式特征金字塔网络,采用独立的特征金字塔结构,从大模型中提取丰富的空间上下文信息以增强定位能力。实验结果表明,TriDet具有良好的鲁棒性,并在多个TAD数据集(包括层级化(多标签)TAD数据集)上取得了当前最优的性能。

代码仓库

dingfengshi/tridet
pytorch
GitHub 中提及
sssste/tridet
pytorch
GitHub 中提及
dingfengshi/tridetplus
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-action-localization-on-hacsTriDet (VideoMAEv2)
Average-mAP: 43.1
mAP@0.5: 62.4
mAP@0.75: 44.1
mAP@0.95: 13.1
temporal-action-localization-on-multithumos-1TriDet (VideoMAEv2)
Average mAP: 37.5
mAP IOU@0.2: 57.7
mAP IOU@0.5: 42.7
mAP IOU@0.7: 24.3
temporal-action-localization-on-multithumos-1TriDet (I3D-rgb)
Average mAP: 30.7
mAP IOU@0.2: 49.1
mAP IOU@0.5: 34.3
mAP IOU@0.7: 17.8
temporal-action-localization-on-thumos14TriDet (VideoMAE v2-g feature)
Avg mAP (0.3:0.7): 70.1
mAP IOU@0.3: 84.8
mAP IOU@0.4: 80.0
mAP IOU@0.5: 73.3
mAP IOU@0.6: 63.8
mAP IOU@0.7: 48.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
具有增强即时可区分性的时序动作定位 | 论文 | HyperAI超神经