8 个月前

多模态表征

计算机视觉

计算机视觉

Shang Tianyi ; Li Zhenyu ; Xu Pengjie ; Qiao Jinwei

摘要

视觉语言位置识别（VLVPR）通过整合图像中的自然语言描述来提升机器人的定位性能。利用语言信息，VLVPR指导机器人进行位置匹配，克服了仅依赖视觉的局限性。多模态融合的核心在于挖掘不同模态之间的互补信息。然而，一般的融合方法依赖于传统的神经架构，难以捕捉跨模态交互的动态特性，尤其是在存在复杂的模态内和模态间相关性的情况下。为此，本文提出了一种新颖的从粗到细且端到端连接的跨模态位置识别框架，称为MambaPlace。在粗定位阶段，文本描述和3D点云分别由预训练的T5模型和实例编码器进行编码。随后，这些数据通过Text Attention Mamba（TAM）和Point Clouds Mamba（PCM）进行增强和对齐处理。在后续的精定位阶段，文本描述和3D点云的特征通过级联Cross Attention Mamba（CCAM）进行跨模态融合并进一步增强。最终，我们从融合后的文本点云特征中预测出位置偏移，实现最精确的定位。大量实验表明，MambaPlace在KITTI360Pose数据集上的定位精度优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

计算机视觉

Shang Tianyi ; Li Zhenyu ; Xu Pengjie ; Qiao Jinwei

摘要

视觉语言位置识别（VLVPR）通过整合图像中的自然语言描述来提升机器人的定位性能。利用语言信息，VLVPR指导机器人进行位置匹配，克服了仅依赖视觉的局限性。多模态融合的核心在于挖掘不同模态之间的互补信息。然而，一般的融合方法依赖于传统的神经架构，难以捕捉跨模态交互的动态特性，尤其是在存在复杂的模态内和模态间相关性的情况下。为此，本文提出了一种新颖的从粗到细且端到端连接的跨模态位置识别框架，称为MambaPlace。在粗定位阶段，文本描述和3D点云分别由预训练的T5模型和实例编码器进行编码。随后，这些数据通过Text Attention Mamba（TAM）和Point Clouds Mamba（PCM）进行增强和对齐处理。在后续的精定位阶段，文本描述和3D点云的特征通过级联Cross Attention Mamba（CCAM）进行跨模态融合并进一步增强。最终，我们从融合后的文本点云特征中预测出位置偏移，实现最精确的定位。大量实验表明，MambaPlace在KITTI360Pose数据集上的定位精度优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供