4 个月前

基于能量的潜在空间学习生成视觉变换器用于显著性预测

基于能量的潜在空间学习生成视觉变换器用于显著性预测

摘要

视觉变换器网络在许多计算机视觉任务中表现出色。本文进一步提出了一种新颖的生成式视觉变换器,该变换器使用一种信息能量基础先验来检测显著对象。通过基于马尔可夫链蒙特卡洛的最大似然估计方法,视觉变换器网络和能量基础先验模型得到了联合训练,在此过程中,潜在变量的不可行后验分布和先验分布的采样由朗之万动力学完成。此外,借助生成式视觉变换器,我们可以从图像中轻松获得像素级不确定性图,这表明了模型在预测图像显著性方面的置信度。与现有的生成模型不同,这些模型通常将潜在变量的先验分布定义为简单的各向同性高斯分布,我们的模型采用了一种更具表现力的信息能量基础先验,能够更好地捕捉数据的潜在空间。我们将所提出的框架应用于RGB和RGB-D显著对象检测任务。广泛的实验结果表明,我们的框架不仅能够实现准确的显著性预测,还能生成与人类感知一致的有意义不确定性图。

基准测试

基准方法指标
thermal-image-segmentation-on-rgb-t-glassEBS
MAE: 0.040

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于能量的潜在空间学习生成视觉变换器用于显著性预测 | 论文 | HyperAI超神经