3 个月前

基于Transformer的多场景绝对位姿回归学习

基于Transformer的多场景绝对位姿回归学习

摘要

绝对相机位姿回归模型仅通过捕获的图像即可估计相机的位置与姿态。通常,这类方法采用卷积神经网络作为主干网络,并搭配多层感知机(MLP)头部,利用图像与位姿标签联合训练,一次仅嵌入单一参考场景。近期,该方法被扩展至多场景学习,通过将MLP头部替换为一组全连接层实现。在本工作中,我们提出采用Transformer架构实现多场景绝对相机位姿回归:编码器利用自注意力机制聚合特征图,解码器则将潜在特征与场景编码转换为候选位姿预测。该机制使模型能够聚焦于对定位具有判别性的通用特征,同时并行地嵌入多个场景。我们在多个常用室内与室外基准数据集上对所提方法进行了评估,结果表明,其性能优于现有的多场景及当前最先进的单场景绝对位姿回归方法。相关代码已公开发布于:https://github.com/yolish/multi-scene-pose-transformer。

代码仓库

yolish/c2f-ms-transformer
pytorch
GitHub 中提及
yolish/multi-scene-pose-transformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-localization-on-oxford-radar-robotcarMS-Transformer
Mean Translation Error: 11.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的多场景绝对位姿回归学习 | 论文 | HyperAI超神经