3 个月前

基于孪生网络的泛化对比优化用于场景识别

基于孪生网络的泛化对比优化用于场景识别

摘要

视觉场景识别是计算机视觉领域的一项具有挑战性的任务,也是基于摄像头的定位与导航系统中的关键组成部分。近年来,卷积神经网络(Convolutional Neural Networks, CNNs)在该任务中取得了优异的性能,并展现出良好的泛化能力。传统方法通常采用成对或三元组图像进行训练,以二值标签(相似或不相似)指示图像间的关系。然而,在实际应用中,图像之间的相似性并非二值化,而是连续变化的。此外,此类CNN的训练过程计算复杂,依赖于代价高昂的样本对(pair)或三元组(triplet)挖掘策略。为此,本文提出一种广义对比损失函数(Generalized Contrastive Loss, GCL),该函数基于连续的图像相似度度量进行建模,并用于训练孪生卷积神经网络(siamese CNN)。同时,我们提出了三种自动标注图像对相似程度的技术,用于对MSLS、TB-Places和7Scenes等公开数据集进行重新标注。实验结果表明,采用GCL函数与改进后的标注数据训练的孪生CNN模型,在性能上持续优于传统的二值化训练方法。在MSLS数据集上训练的模型,显著超越了当前最先进的方法,包括NetVLAD、NetVLAD-SARE、AP-GeM和Patch-NetVLAD,并在Pittsburgh30k、Tokyo 24/7、RobotCar Seasons v2以及Extended CMU Seasons等多个基准数据集上表现出优异的泛化能力。此外,使用GCL函数训练孪生网络无需复杂的样本对挖掘过程,显著降低了训练复杂度。相关源代码已开源,地址为:https://github.com/marialeyvallina/generalized_contrastive_loss。

代码仓库

基准测试

基准方法指标
visual-place-recognition-on-mapillary-testRexNeXt-GCL
Recall@1: 56.0
Recall@10: 75.1
Recall@5: 70.8
visual-place-recognition-on-mapillary-testResNeXt-GCL-PCA
Recall@1: 62.3
Recall@10: 81.1
Recall@5: 76.2
visual-place-recognition-on-mapillary-valResNeXt GCL + PCA
Recall@1: 80.9
Recall@10: 92.6
Recall@5: 90.7
visual-place-recognition-on-mapillary-valResNeXt GCL
Recall@1: 75.5
Recall@10: 88.5
Recall@5: 86.1
visual-place-recognition-on-pittsburgh-30kGCL [trained only on MSLS]
Recall@1: 81.94
Recall@5: 94.56
visual-place-recognition-on-tokyo247GCL [trained only on MSLS]
Recall@1: 69.84
Recall@10: 80.63
Recall@5: 84.76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于孪生网络的泛化对比优化用于场景识别 | 论文 | HyperAI超神经