4 个月前

时序上下文网络在视频中进行活动定位

时序上下文网络在视频中进行活动定位

摘要

我们提出了一种用于精确时间定位人类活动的时序上下文网络(Temporal Context Network, TCN)。类似于Faster-RCNN架构,TCN在视频中以等间隔放置多个时间尺度的提议框。我们提出了一种新的表示方法来对这些提议框进行排序。由于仅在片段内部池化特征不足以预测活动边界,我们构建了一种显式捕捉提议框周围上下文的表示方法来进行排序。对于每个提议框内的时序片段,特征在一对尺度上均匀采样,并输入到一个时序卷积神经网络(Temporal Convolutional Neural Network, TCN)中进行分类。在对提议框进行排序后,应用非极大值抑制,并进行最终分类以获得检测结果。TCN在ActivityNet数据集和THUMOS14数据集上的表现优于现有最先进方法。

基准测试

基准方法指标
action-recognition-in-videos-on-thumos14Dai et. al.
mAP@0.4: 33.3
mAP@0.5: 25.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时序上下文网络在视频中进行活动定位 | 论文 | HyperAI超神经