4 个月前

基于多阶段CNN的未剪辑视频中时序动作定位

基于多阶段CNN的未剪辑视频中时序动作定位

摘要

我们研究了在未剪辑的长视频中进行时间动作定位的问题。这一问题非常重要,因为实际应用中的视频通常是不受限制的,并且包含多个动作实例以及背景场景或其他活动的视频内容。为了解决这一具有挑战性的问题,我们通过三种基于片段的3D卷积神经网络(ConvNets)来利用深度网络在时间动作定位方面的有效性:(1) 提案网络在长视频中识别可能包含动作的候选片段;(2) 分类网络学习一对一的动作分类模型,以作为定位网络的初始化;(3) 定位网络在已学习的分类网络基础上进行微调,以精确定位每个动作实例。我们提出了一种新的损失函数,用于定位网络显式考虑时间重叠,从而实现高时间定位精度。在预测过程中,仅使用提案网络和定位网络。在两个大规模基准测试中,我们的方法相比其他最先进系统表现出显著优越的性能:当评估的时间重叠阈值设为0.5时,在MEXaction2上的平均精度均值(mAP)从1.7%提高到7.4%,而在THUMOS 2014上的mAP从15.0%提高到19.0%。

代码仓库

基准测试

基准方法指标
action-recognition-in-videos-on-thumos14Shou et. al.
mAP@0.1: 47.7
mAP@0.2: 43.5
mAP@0.3: 36.3
mAP@0.4: 28.7
mAP@0.5: 19.0
temporal-action-localization-on-mexaction2S-CNN
mAP: 7.4
temporal-action-localization-on-thumos14S-CNN
mAP IOU@0.1: 47.7
mAP IOU@0.2: 43.5
mAP IOU@0.3: 36.3
mAP IOU@0.4: 28.7
mAP IOU@0.5: 19

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多阶段CNN的未剪辑视频中时序动作定位 | 论文 | HyperAI超神经