6 个月前

计算机视觉

计算机视觉

Kaichen Zhou Changhao Chen Bing Wang Muhamad Risqi U. Saputra Niki Trigoni Andrew Markham

摘要

近年来，基于学习的方法在单次拍摄相机定位任务中取得了令人瞩目的成果。然而，如何有效融合多种模态（如图像与深度信息），以及如何处理退化或缺失的输入数据，仍缺乏充分研究。特别地，我们观察到，以往采用深度融合策略的方法在性能上并未显著优于仅使用单一模态的模型。我们推测，这一现象的原因在于现有方法在特征空间融合时通常采用简单的加法或拼接方式，未能充分考虑不同模态之间的优势差异。为解决该问题，我们提出一种端到端框架，命名为VMLoc，通过变分专家乘积（Variational Product-of-Experts, PoE）将不同传感器输入映射至统一的隐空间，随后采用基于注意力机制的融合策略进行整合。与以往多模态变分方法直接沿用标准变分自编码器的目标函数不同，本文提出一种基于重要性加权的无偏目标函数，能够更准确地估计相机位姿。我们在RGB-D数据集上对所提模型进行了广泛评估，实验结果充分验证了该方法的有效性。相关源代码已开源，地址为：https://github.com/kaichen-z/VMLoc。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Kaichen Zhou Changhao Chen Bing Wang Muhamad Risqi U. Saputra Niki Trigoni Andrew Markham

摘要

近年来，基于学习的方法在单次拍摄相机定位任务中取得了令人瞩目的成果。然而，如何有效融合多种模态（如图像与深度信息），以及如何处理退化或缺失的输入数据，仍缺乏充分研究。特别地，我们观察到，以往采用深度融合策略的方法在性能上并未显著优于仅使用单一模态的模型。我们推测，这一现象的原因在于现有方法在特征空间融合时通常采用简单的加法或拼接方式，未能充分考虑不同模态之间的优势差异。为解决该问题，我们提出一种端到端框架，命名为VMLoc，通过变分专家乘积（Variational Product-of-Experts, PoE）将不同传感器输入映射至统一的隐空间，随后采用基于注意力机制的融合策略进行整合。与以往多模态变分方法直接沿用标准变分自编码器的目标函数不同，本文提出一种基于重要性加权的无偏目标函数，能够更准确地估计相机位姿。我们在RGB-D数据集上对所提模型进行了广泛评估，实验结果充分验证了该方法的有效性。相关源代码已开源，地址为：https://github.com/kaichen-z/VMLoc。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供