4 个月前

机器视觉 3D

计算机视觉

Dai Angela Nie&#xdf ner Matthias

摘要

我们提出3DMV，一种用于室内环境RGB-D扫描数据的三维语义场景分割的新方法，该方法采用联合的三维多视角预测网络。与现有方法仅使用几何信息或RGB数据作为输入不同，我们提出一种联合的端到端网络架构，同时融合这两种数据模态。不同于简单地将彩色图像数据投影至体素网格并在纯三维空间中进行处理（这会导致细节信息不足），我们首先从对应的RGB图像中提取特征图。随后，通过可微分的逆投影层，将这些特征映射到三维网络的体素特征网格中。考虑到我们的目标是处理可能包含大量帧的三维扫描场景，我们引入多视角池化策略，以适应不同数量的RGB输入视角。通过该联合二维-三维架构，我们实现了对RGB与几何特征的自学习融合，显著优于现有基准方法。例如，在ScanNet三维分割基准测试中，我们的方法将准确率从现有体素架构的52.8%提升至75%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

机器视觉 3D

计算机视觉

Dai Angela Nie&#xdf ner Matthias

摘要

我们提出3DMV，一种用于室内环境RGB-D扫描数据的三维语义场景分割的新方法，该方法采用联合的三维多视角预测网络。与现有方法仅使用几何信息或RGB数据作为输入不同，我们提出一种联合的端到端网络架构，同时融合这两种数据模态。不同于简单地将彩色图像数据投影至体素网格并在纯三维空间中进行处理（这会导致细节信息不足），我们首先从对应的RGB图像中提取特征图。随后，通过可微分的逆投影层，将这些特征映射到三维网络的体素特征网格中。考虑到我们的目标是处理可能包含大量帧的三维扫描场景，我们引入多视角池化策略，以适应不同数量的RGB输入视角。通过该联合二维-三维架构，我们实现了对RGB与几何特征的自学习融合，显著优于现有基准方法。例如，在ScanNet三维分割基准测试中，我们的方法将准确率从现有体素架构的52.8%提升至75%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供