
摘要
近年来,利用深度神经网络从单视图或多视图RGB图像中恢复物体的三维表示引起了越来越多的关注。一些主流的研究工作(如3D-R2N2)采用递归神经网络(RNNs)来顺序融合从输入图像中提取的多个特征图。然而,当给定同一组输入图像但顺序不同时,基于RNN的方法无法生成一致的重建结果。此外,由于长期记忆损失,RNNs不能充分利用输入图像来优化重建结果。为了解决这些问题,我们提出了一种新的单视图和多视图三维重建框架,命名为Pix2Vox。通过精心设计的编码器-解码器结构,该框架可以从每个输入图像生成一个粗略的三维体素模型。然后,引入了一个上下文感知融合模块,以自适应地从不同的粗略三维体素模型中选择高质量的部分重建(例如桌腿),从而获得融合后的三维体素模型。最后,一个细化模块进一步优化融合后的三维体素模型,生成最终输出。在ShapeNet和Pix3D基准上的实验结果表明,所提出的Pix2Vox在很大程度上优于现有方法。此外,与3D-R2N2相比,所提出的方法在反向推理时间上快了24倍。对ShapeNet未见过的三维类别的实验也展示了我们的方法具有出色的泛化能力。
代码仓库
Ajithbalakrishnan/3D-Model-Reconstruction
tf
GitHub 中提及
https://gitlab.com/hzxie/Pix2Vox
pytorch
GitHub 中提及
hzxie/Pix2Vox
官方
pytorch
GitHub 中提及
Radhika009/CMPE_295B_MASTERPROJECT
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-reconstruction-on-data3dr2n2 | Pix2Vox-A | 3DIoU: 0.661 |
| 3d-object-reconstruction-on-data3dr2n2 | Pix2Vox-F | 3DIoU: 0.634 |