
摘要
本文提出了一种名为EVP(Enhanced Visual Perception,增强视觉感知)的网络架构。EVP在先前工作VPD的基础上进行改进,而VPD首次探索了将Stable Diffusion网络应用于计算机视觉任务的可行性。本文提出了两项关键改进:第一,我们设计了逆向多注意力特征精炼(Inverse Multi-Attentive Feature Refinement, IMAFR)模块,通过融合更高层级金字塔结构的空间信息,显著提升了特征学习能力;第二,我们提出了一种新型的图像-文本对齐模块,以优化Stable Diffusion骨干网络的特征提取性能。所提出的EVP架构具有广泛的适用性,我们在多个任务中验证了其有效性:在单图像深度估计任务中,采用基于分类的分箱(classification-based bins)专用解码器;在指代分割(referring segmentation)任务中,则使用现成的解码器。在多个主流数据集上的全面实验表明,EVP在单图像深度估计任务中取得了当前最优性能,无论是在室内场景(NYU Depth v2数据集,相比VPD提升11.8%的RMSE)还是室外场景(KITTI数据集)均表现出色;同时在指代分割任务(RefCOCO数据集)上也实现了2.53的IoU提升,优于ReLA方法。相关代码与预训练模型已公开发布于:https://github.com/Lavreniuk/EVP。
代码仓库
lavreniuk/evp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| depth-estimation-on-nyu-depth-v2 | EVP | RMS: 0.224 |
| monocular-depth-estimation-on-kitti-eigen | EVP | Delta u003c 1.25: 0.980 Delta u003c 1.25^2: 0.998 Delta u003c 1.25^3: 1.000 RMSE: 2.015 RMSE log: 0.073 Sq Rel: 0.136 absolute relative error: 0.048 |
| monocular-depth-estimation-on-nyu-depth-v2 | EVP | Delta u003c 1.25: 0.976 Delta u003c 1.25^2: 0.997 Delta u003c 1.25^3: 0.999 RMSE: 0.224 absolute relative error: 0.061 log 10: 0.027 |
| referring-expression-segmentation-on-refcoco-6 | EVP | IoU: 77.61 IoU (%): 77.61 |
| referring-expression-segmentation-on-refcoco-8 | EVP | Overall IoU: 78.75 |
| referring-expression-segmentation-on-refcoco-9 | EVP | Overall IoU: 72.94 |