3 个月前

EVP:基于逆向多注意力特征精炼与正则化图文对齐的增强视觉感知

EVP:基于逆向多注意力特征精炼与正则化图文对齐的增强视觉感知

摘要

本文提出了一种名为EVP(Enhanced Visual Perception,增强视觉感知)的网络架构。EVP在先前工作VPD的基础上进行改进,而VPD首次探索了将Stable Diffusion网络应用于计算机视觉任务的可行性。本文提出了两项关键改进:第一,我们设计了逆向多注意力特征精炼(Inverse Multi-Attentive Feature Refinement, IMAFR)模块,通过融合更高层级金字塔结构的空间信息,显著提升了特征学习能力;第二,我们提出了一种新型的图像-文本对齐模块,以优化Stable Diffusion骨干网络的特征提取性能。所提出的EVP架构具有广泛的适用性,我们在多个任务中验证了其有效性:在单图像深度估计任务中,采用基于分类的分箱(classification-based bins)专用解码器;在指代分割(referring segmentation)任务中,则使用现成的解码器。在多个主流数据集上的全面实验表明,EVP在单图像深度估计任务中取得了当前最优性能,无论是在室内场景(NYU Depth v2数据集,相比VPD提升11.8%的RMSE)还是室外场景(KITTI数据集)均表现出色;同时在指代分割任务(RefCOCO数据集)上也实现了2.53的IoU提升,优于ReLA方法。相关代码与预训练模型已公开发布于:https://github.com/Lavreniuk/EVP。

代码仓库

lavreniuk/evp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
depth-estimation-on-nyu-depth-v2EVP
RMS: 0.224
monocular-depth-estimation-on-kitti-eigenEVP
Delta u003c 1.25: 0.980
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 2.015
RMSE log: 0.073
Sq Rel: 0.136
absolute relative error: 0.048
monocular-depth-estimation-on-nyu-depth-v2EVP
Delta u003c 1.25: 0.976
Delta u003c 1.25^2: 0.997
Delta u003c 1.25^3: 0.999
RMSE: 0.224
absolute relative error: 0.061
log 10: 0.027
referring-expression-segmentation-on-refcoco-6EVP
IoU: 77.61
IoU (%): 77.61
referring-expression-segmentation-on-refcoco-8EVP
Overall IoU: 78.75
referring-expression-segmentation-on-refcoco-9EVP
Overall IoU: 72.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EVP:基于逆向多注意力特征精炼与正则化图文对齐的增强视觉感知 | 论文 | HyperAI超神经