摘要
局部关键点匹配是基于计算机视觉任务中的关键步骤。近年来,基于深度卷积神经网络(Deep Convolutional Neural Network, CNN)的方法被广泛用于学习描述子生成,以提升关键点匹配的准确性。当前该领域的前沿工作主要依赖于基于三元组(triplet)的损失函数(及其变体),该方法利用三个样本——锚点(anchor)、正样本(positive)和负样本(negative)——进行训练。本文提出一种新颖的“双负样本挖掘”(Twin Negative Mining)采样策略,并结合四元组损失函数(Quad loss function),构建了一个基于深度神经网络的描述子生成框架(Twin-Net),旨在生成更具鲁棒性的描述子,从而显著增强对非对应图像块之间的区分能力。所提出的采样策略与损失函数设计目标在于:在最坏情况下,表示同一空间位置的两个图像块的描述子之间的差异,不应超过两个外观相似但来自不同三维位置的图像块描述子之间的差异。这一机制有效提升了网络的泛化能力,在相同数据集上训练时,性能优于现有方法。Twin-Net输出128维描述子,并采用L2距离作为相似性度量,因此兼容传统的描述子匹配流程(如SIFT所采用的范式)。在Brown和HPatches数据集上的实验结果表明,Twin-Net在各项指标上均表现出持续更优的性能,展现出更强的区分能力和泛化能力,显著超越当前最先进的方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| patch-matching-on-brown-dataset | Twin-Net | FPR95: 1.27 |
| patch-matching-on-hpatches | Twin-Net | Patch Matching: 53.95 Patch Retrieval: 71.66 Patch Verification: 89.06 |