3 个月前

单张图像的隐式表示下实现全面的三维场景理解

单张图像的隐式表示下实现全面的三维场景理解

摘要

我们提出了一种从单张图像实现整体三维场景理解的新方法,能够同时预测物体的三维形状、物体位姿以及场景布局。由于该问题具有高度病态性,现有方法在复杂场景中常因物体间严重遮挡而导致形状与场景布局估计不准确。为此,我们引入最新的深度隐式表示方法以应对这一挑战。本文不仅提出了一种基于图像的局部结构化隐式神经网络,用于提升物体形状的估计精度,还设计了一种新颖的隐式场景图神经网络,通过挖掘隐式局部物体特征来优化三维物体位姿与场景布局的推断。此外,我们还提出了一种新型物理冲突损失函数,以避免物体之间出现不合理的上下文关系。大量实验结果表明,本方法在物体形状重建、场景布局估计以及三维物体检测任务上均优于当前最先进的技术。

代码仓库

chengzhag/Implicit3DUnderstanding
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-shape-reconstruction-on-pix3dIM3D
CD: 0.0672
EMD: N/A
IoU: N/A
monocular-3d-object-detection-on-sun-rgb-dIM3D
AP@0.15 (10 / NYU-37): 45.21
AP@0.15 (NYU-37): 24.10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
单张图像的隐式表示下实现全面的三维场景理解 | 论文 | HyperAI超神经