6 个月前

计算机视觉

计算机视觉

Suresh Guttikonda Jason Rambach

摘要

近年来，研究界对全景图像表现出浓厚兴趣，因其能够提供360度全方位的视角信息。通过融合多种数据模态，可充分利用各模态的互补特性，基于语义分割实现更鲁棒、更丰富的场景理解，从而充分挖掘其潜力。然而，现有研究大多集中于针孔相机模型下的RGB-X语义分割任务。在本研究中，我们提出一种基于Transformer的跨模态融合架构，旨在弥合多模态融合与全向场景感知之间的差距。为应对等距柱状投影（equirectangular representation）带来的极端物体形变与全景畸变问题，我们引入了畸变感知模块。此外，在特征融合前，我们设计了跨模态交互机制，用于特征校正与信息交换，以实现双模态与三模态特征流之间的长距离上下文信息传递。在三个室内全景数据集上，我们对四种不同模态组合进行了全面测试，结果表明，本方法在mIoU指标上达到当前最优性能：在Stanford2D3DS（RGB-HHA）数据集上达到60.60%，在Structured3D（RGB-D-N）数据集上达到71.97%，在Matterport3D（RGB-D）数据集上达到35.92%。相关代码与训练好的模型即将开源。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Suresh Guttikonda Jason Rambach

摘要

近年来，研究界对全景图像表现出浓厚兴趣，因其能够提供360度全方位的视角信息。通过融合多种数据模态，可充分利用各模态的互补特性，基于语义分割实现更鲁棒、更丰富的场景理解，从而充分挖掘其潜力。然而，现有研究大多集中于针孔相机模型下的RGB-X语义分割任务。在本研究中，我们提出一种基于Transformer的跨模态融合架构，旨在弥合多模态融合与全向场景感知之间的差距。为应对等距柱状投影（equirectangular representation）带来的极端物体形变与全景畸变问题，我们引入了畸变感知模块。此外，在特征融合前，我们设计了跨模态交互机制，用于特征校正与信息交换，以实现双模态与三模态特征流之间的长距离上下文信息传递。在三个室内全景数据集上，我们对四种不同模态组合进行了全面测试，结果表明，本方法在mIoU指标上达到当前最优性能：在Stanford2D3DS（RGB-HHA）数据集上达到60.60%，在Structured3D（RGB-D-N）数据集上达到71.97%，在Matterport3D（RGB-D）数据集上达到35.92%。相关代码与训练好的模型即将开源。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于多模态球面图像的单帧语义分割 | 论文 | HyperAI超神经