4 个月前

TASED-Net:用于视频显著性检测的时间聚合空间编码器-解码器网络

TASED-Net:用于视频显著性检测的时间聚合空间编码器-解码器网络

摘要

TASED-Net 是一种用于视频显著性检测的三维全卷积网络架构。该架构由两个基本模块组成:首先,编码器网络从连续多帧的输入片段中提取低分辨率的空间时间特征;然后,后续的预测网络在空间上解码这些编码特征,同时聚合所有的时间信息。因此,从多个帧的输入片段中生成一个单一的预测图。通过以滑动窗口的方式将 TASED-Net 应用于视频,可以逐帧预测显著性图。本方法假设任何一帧的显著性图都可以通过考虑有限数量的过去帧来预测。我们对视频显著性检测进行了广泛的实验,结果验证了这一假设,并证明了我们的具有时间聚合方法的全卷积模型的有效性。TASED-Net 在视频显著性检测领域的三个主要大规模数据集(DHF1K、Hollywood2 和 UCFSports)上的表现均显著优于先前的最佳方法。通过对结果进行定性分析,我们观察到我们的模型特别擅长关注显著移动物体。

代码仓库

kylemin/TASED-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-saliency-detection-on-dhf1kTASED-Net
NSS: 2.667
video-saliency-detection-on-msu-videoTASED-Net
AUC-J: 0.852
CC: 0.710
FPS: 1.85
KLDiv: 0.538
NSS: 1.96
SIM: 0.610

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TASED-Net:用于视频显著性检测的时间聚合空间编码器-解码器网络 | 论文 | HyperAI超神经