
摘要
特征表示在视觉对应任务中起着至关重要的作用,近年来图像匹配方法普遍采用深度堆叠的卷积层来提取特征。然而,这类模型通常具有单一且静态的特性:它们通常固定使用某一特定层级的特征(例如,网络最后一层的输出),并在此基础上进行匹配,而不会根据待匹配图像的内容进行调整。本文提出一种全新的视觉对应方法,通过根据待匹配图像动态选择相关卷积层,实时组合出高效的特征表示。该方法受到目标检测中多层特征融合机制以及分类任务中自适应推理架构的启发,命名为动态超像素流(Dynamic Hyperpixel Flow)。该方法能够从深层卷积神经网络中自适应地选取少量相关层,实时构建超列(hypercolumn)特征。我们在语义对应任务上验证了该方法的有效性,即在不同实例的同一类物体或场景图像之间建立准确的对应关系。在多个标准基准测试上的实验结果表明,所提方法以自适应且高效的方式显著提升了匹配性能,超越了当前最先进的技术水平。
代码仓库
juhongm999/dhpf
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-correspondence-on-caltech-101 | DHPF | IoU: 62 IoU (weak): 61 LT-ACC: 87 LT-ACC (weak): 86 |
| semantic-correspondence-on-pf-pascal | DHPF | PCK: 90.7 PCK (weak): 82.1 |
| semantic-correspondence-on-pf-willow | DHPF | PCK: 77.6 PCK (weak): 80.2 |
| semantic-correspondence-on-spair-71k | DHPF | PCK: 37.3 |