4 个月前

用于视觉显著性预测的上下文编码器-解码器网络

用于视觉显著性预测的上下文编码器-解码器网络

摘要

预测自然图像中的显著区域需要检测场景中存在的物体。为了应对这一具有挑战性的任务,必须提取多个空间尺度上的高级视觉特征,并结合上下文信息进行增强。然而,现有的旨在解释人类注视图的模型并未明确纳入这种机制。本文提出了一种基于大规模图像分类任务预训练的卷积神经网络的方法。该架构形成了编码器-解码器结构,并包含一个具有不同膨胀率的多层卷积模块,以并行捕获多尺度特征。此外,我们将生成的表示与全局场景信息相结合,以准确预测视觉显著性。我们的模型在两个公开的显著性基准数据集上,通过多种评估指标取得了具有竞争力且一致的结果,并在五个数据集和选定示例中展示了所提方法的有效性。与现有最先进方法相比,该网络基于轻量级的图像分类骨干网,因此对于计算资源有限的应用(如虚拟机器人系统)而言,是一种适合的选择,能够在复杂自然场景中估计人类的注视点。

代码仓库

nvinden/7ChannelEML
tf
GitHub 中提及
alexanderkroner/saliency
官方
tf
GitHub 中提及
gradio-app/saliency
tf
GitHub 中提及

基准测试

基准方法指标
video-saliency-detection-on-msu-videoMSI-Net (dutomron)
AUC-J: 0.852
CC: 0.690
FPS: 1.28
KLDiv: 0.537
NSS: 1.82
SIM: 0.607

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视觉显著性预测的上下文编码器-解码器网络 | 论文 | HyperAI超神经