3 个月前

DeepVS:一种基于深度学习的视频显著性预测方法

DeepVS:一种基于深度学习的视频显著性预测方法

摘要

本文提出了一种基于深度学习的新型视频显著性预测方法,命名为DeepVS。具体而言,我们构建了一个大规模视频眼动数据库(LEDOV),包含32名受试者对538个视频片段的注视点数据。通过对LEDOV的分析发现,人类注意力更易被物体吸引,尤其是运动中的物体或物体的运动部分。为此,我们设计了一种面向对象到运动的卷积神经网络(OM-CNN),用于预测DeepVS中的帧内显著性,该网络由“物体性子网络”与“运动子网络”两部分构成。在OM-CNN中,我们提出跨网络掩码(cross-net mask)与分层特征归一化机制,以有效融合物体性子网络的空间特征与运动子网络的时序特征。此外,基于数据库的进一步分析表明,人类注意力在时间上具有显著相关性,视频帧间的显著性呈现平滑过渡特性。因此,我们提出了结构化显著性卷积长短期记忆网络(SS-ConvLSTM),以OM-CNN提取的特征作为输入,从而生成考虑中心偏置特性的结构化输出以及跨帧注意力图的平滑变化的帧间显著性图。实验结果表明,DeepVS在视频显著性预测任务上显著超越了现有技术水平,达到了当前最优性能。

基准测试

基准方法指标
video-saliency-detection-on-msu-videoDeepVS
AUC-J: 0.804
CC: 0.586
FPS: 3.29
KLDiv: 0.707
NSS: 1.44
SIM: 0.548

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeepVS:一种基于深度学习的视频显著性预测方法 | 论文 | HyperAI超神经