
摘要
多视图投影方法在3D形状识别任务中展示了其达到最先进水平的能力。这些方法学习了从多个视图聚合信息的不同方式。然而,当前这些视图的摄像机视角往往是基于启发式设定且对所有形状固定不变。为了克服现有多视图方法缺乏动态性的缺点,我们提出了一种学习这些视角的方法。具体而言,我们引入了多视图变换网络(Multi-View Transformation Network, MVTN),该网络利用可微渲染技术回归出用于3D形状识别的最佳视角。因此,MVTN可以与任何用于3D形状分类的多视图网络一起进行端到端训练。我们将MVTN集成到一个新颖的自适应多视图管道中,该管道可以渲染3D网格或点云。实验结果表明,MVTN在3D形状分类和3D形状检索任务中表现出显著的性能提升,而无需额外的训练监督。在这些任务中,MVTN在ModelNet40、ShapeNet Core55以及最新且最真实的ScanObjectNN数据集上达到了最先进水平(最高提升6%)。有趣的是,我们还证明了MVTN能够在3D域内提供对旋转和遮挡的网络鲁棒性。代码已发布在 https://github.com/ajhamdi/MVTN 。
代码仓库
ajhamdi/mvtorch
pytorch
GitHub 中提及
ajhamdi/MVTN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-retrieval-on-modelnet40 | MVTN | Mean AP: 92.9 |
| 3d-object-retrieval-on-shapenetcore-55 | MVTN | Mean AP: 82.9 |
| 3d-point-cloud-classification-on-modelnet40 | MVTN | Mean Accuracy: 92.2 Overall Accuracy: 93.8 |
| 3d-point-cloud-classification-on-scanobjectnn | MVTN | OBJ-BG (OA): 92.6 OBJ-ONLY (OA): 92.3 Overall Accuracy: 82.8 |