3 个月前

基于注意力机制的多模态融合网络用于语义场景补全

基于注意力机制的多模态融合网络用于语义场景补全

摘要

本文提出了一种端到端的3D卷积网络——基于注意力的多模态融合网络(Attention-based Multi-modal Fusion Network, AMFNet),用于语义场景补全(Semantic Scene Completion, SSC)任务,旨在从单视角RGB-D图像中推断出体素化3D场景的占据状态与语义标签。与以往仅依赖RGB-D图像提取的语义特征的方法不同,所提出的AMFNet通过融合从RGB-D图像中推断2D语义分割的经验以及空间维度中可靠的深度信息,实现了3D场景补全与语义分割的联合优化。该方法通过构建基于2D语义分割的多模态融合架构,并引入残差注意力模块增强3D语义补全网络,从而有效提升模型性能。我们在合成的SUNCG-RGBD数据集和真实的NYUv2数据集上对所提方法进行了验证,实验结果表明,相较于当前最先进的方法,本方法在SUNCG-RGBD数据集上取得了2.5%的性能提升,在NYUv2真实数据集上实现了2.6%的提升。

基准测试

基准方法指标
3d-semantic-scene-completion-on-nyuv2AMFNet
mIoU: 33

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于注意力机制的多模态融合网络用于语义场景补全 | 论文 | HyperAI超神经