6 个月前

计算机视觉

计算机视觉

Issar Tzachor Boaz Lerner Matan Levy Michael Green Tal Berkovitz Shalev Gavriel Habib Dvir Samuel Noam Korngut Zailer Or Shimshi Nir Darshan

摘要

视觉位置识别（Visual Place Recognition, VPR）的任务是从带有地理标签的图像数据库中预测查询图像的位置。近年来，VPR领域的研究强调了使用如DINOv2等预训练基础模型在该任务中的显著优势。然而，这些模型在未经针对VPR特定数据进行微调的情况下，通常被认为表现不足。本文提出了一种有效的方法，以充分挖掘基础模型在VPR任务中的潜力。我们证明，从自注意力（self-attention）层中提取的特征，即使在零样本（zero-shot）设置下，也能作为强大的重排序（re-ranker）机制，显著提升识别性能。所提方法不仅优于以往的零样本方法，其性能甚至可与多种监督学习方法相媲美。进一步地，我们展示了一种单阶段方法，通过利用视觉Transformer（ViT）内部层进行特征池化，能够生成全局特征，并实现当前最先进的性能，同时保持极高的特征紧凑性——特征维度低至128维。此外，将我们提出的局部基础模型特征用于重排序，进一步扩大了与现有方法的性能差距。实验结果表明，该方法在复杂场景下展现出卓越的鲁棒性与泛化能力，成功应对遮挡、昼夜交替以及季节性变化等挑战，创下新的SOTA（State-of-the-Art）性能纪录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Issar Tzachor Boaz Lerner Matan Levy Michael Green Tal Berkovitz Shalev Gavriel Habib Dvir Samuel Noam Korngut Zailer Or Shimshi Nir Darshan

摘要

视觉位置识别（Visual Place Recognition, VPR）的任务是从带有地理标签的图像数据库中预测查询图像的位置。近年来，VPR领域的研究强调了使用如DINOv2等预训练基础模型在该任务中的显著优势。然而，这些模型在未经针对VPR特定数据进行微调的情况下，通常被认为表现不足。本文提出了一种有效的方法，以充分挖掘基础模型在VPR任务中的潜力。我们证明，从自注意力（self-attention）层中提取的特征，即使在零样本（zero-shot）设置下，也能作为强大的重排序（re-ranker）机制，显著提升识别性能。所提方法不仅优于以往的零样本方法，其性能甚至可与多种监督学习方法相媲美。进一步地，我们展示了一种单阶段方法，通过利用视觉Transformer（ViT）内部层进行特征池化，能够生成全局特征，并实现当前最先进的性能，同时保持极高的特征紧凑性——特征维度低至128维。此外，将我们提出的局部基础模型特征用于重排序，进一步扩大了与现有方法的性能差距。实验结果表明，该方法在复杂场景下展现出卓越的鲁棒性与泛化能力，成功应对遮挡、昼夜交替以及季节性变化等挑战，创下新的SOTA（State-of-the-Art）性能纪录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供