
摘要
近年来,利用深度神经网络从单张或多张图像中恢复物体的三维形状受到了广泛关注。主流方法(如3D-R2N2)采用循环神经网络(RNN)逐次融合输入图像的特征图。然而,基于RNN的方法在面对相同输入图像但不同顺序时,难以产生一致的重建结果;此外,由于长期记忆衰减问题,RNN可能遗忘早期输入图像中的重要特征。为解决上述问题,本文提出一种新颖的单视角与多视角三维物体重建框架——Pix2Vox++。该方法通过精心设计的编码器-解码器结构,从每张输入图像生成一个粗略的三维体素表示。随后,引入一个多尺度上下文感知融合模块,自适应地从所有粗略三维体素中选择高质量的局部重建结果,以融合生成最终的三维体素表示。为进一步修正融合结果中错误恢复的区域,系统还配备一个精修模块,用于生成最终输出。在ShapeNet、Pix3D和Things3D等多个基准数据集上的实验结果表明,Pix2Vox++在重建精度与计算效率方面均优于当前最先进的方法。
代码仓库
yuzhenmao/MI_P2V
pytorch
GitHub 中提及
https://gitlab.com/hzxie/Pix2Vox
官方
pytorch
GitHub 中提及
hzxie/Pix2Vox
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-reconstruction-on-data3dr2n2 | Pix2Vox++/A | 3DIoU: 0.67 |
| 3d-object-reconstruction-on-data3dr2n2 | Pix2Vox++/F | 3DIoU: 0.645 |