6 个月前

摘要

视觉位置识别（Visual Place Recognition, VPR）是移动机器人、自动驾驶以及其他计算机视觉任务中的关键组成部分。它指的是仅通过计算机视觉手段，从查询图像中识别出其所描绘的地理位置。在大规模场景下，重复性结构、天气变化以及光照差异等因素带来了严峻挑战，因为场景外观可能随时间发生显著变化。与此同时，高效的VPR技术还需在实际应用中具备实用性，尤其在对延迟敏感的场景中表现良好。为应对上述挑战，我们提出了一种全新的整体特征聚合方法——MixVPR。该方法将预训练主干网络输出的特征图视为一组全局特征，并通过级联式的特征混合机制，显式建模每张特征图内部元素之间的全局关系，从而无需像NetVLAD或TransVPR那样依赖局部或分层聚合结构。我们通过在多个大规模基准数据集上的大量实验，充分验证了该方法的有效性。结果表明，MixVPR在性能上显著优于现有所有技术，同时参数量不足CosPlace和NetVLAD的一半。在Pitts250k-test数据集上，我们取得了94.6%的Recall@1新纪录；在MapillarySLS上达到88.0%；尤其在更具挑战性的Nordland数据集上，实现了58.4%的Recall@1，显著超越以往方法。更重要的是，我们的方法在性能上全面超越了两阶段检索技术（如Patch-NetVLAD、TransVPR和SuperGLUE），且推理速度高出数个数量级。相关代码与训练好的模型已开源，可通过以下链接获取：https://github.com/amaralibey/MixVPR。

源 PDF