
摘要
从单张图像进行3D物体重建是一个高度欠定的问题,需要依赖对合理3D形状的强先验知识。这为基于学习的方法带来了挑战,因为在真实图像中缺乏充足的3D物体标注数据。以往的工作通常选择在带有真实3D信息的合成数据上进行训练,但在真实数据上测试时却面临域适应(domain adaptation)问题。在本工作中,我们提出MarrNet,一种端到端可训练的模型,该模型通过分步估计2.5D草图和3D物体形状来实现重建。我们提出的解耦式、两阶段框架具有三大优势:首先,相较于完整的3D形状,从2D图像恢复2.5D草图要容易得多;且能够恢复2.5D草图的模型更易于从合成数据迁移到真实数据。其次,基于2.5D草图进行3D重建时,系统可完全依赖合成数据进行训练。这是因为我们可以轻松生成逼真的2.5D草图,而无需在渲染过程中建模真实图像中的物体外观变化(如光照、纹理等)。这进一步缓解了域适应问题。第三,我们从3D形状到2.5D草图之间推导出可微分的投影函数,使得整个框架能够在真实图像上实现端到端训练,且无需人工标注。实验表明,我们的模型在3D形状重建任务上达到了当前最优性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-shape-retrieval-on-pix3d | MarrNet | R@1: 0.42 R@16: 0.71 R@2: 0.51 R@32: 0.78 R@4: 0.57 R@8: 0.64 |