
摘要
我们提出了一种从多视角图像中推断深度图的端到端深度学习架构。在网络中,我们首先提取深层视觉图像特征,然后通过可微同胚变换在参考相机视锥体上构建3D代价体积。接下来,我们应用3D卷积来正则化和回归初始深度图,该深度图随后通过参考图像进行细化以生成最终输出。我们的框架能够灵活适应任意N视角输入,使用基于方差的成本度量方法将多个特征映射为一个成本特征。所提出的MVSNet在大规模室内DTU数据集上进行了验证。经过简单的后处理,我们的方法不仅显著优于以往的最先进方法,而且运行速度也快数倍。我们还在复杂的室外Tanks and Temples数据集上评估了MVSNet,在2018年4月18日之前未进行任何微调的情况下,我们的方法排名第一,展示了MVSNet的强大泛化能力。
代码仓库
YoYo000/MVSNet
tf
GitHub 中提及
xy-guo/MVSNet_pytorch
pytorch
GitHub 中提及
kwea123/MVSNet_pl
pytorch
GitHub 中提及
Skoltech-3D/sk3d_data
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-reconstruction-on-dtu | MVSNet | Acc: 0.396 Comp: 0.527 Overall: 0.462 |
| point-clouds-on-tanks-and-temples | MVSNet | Mean F1 (Intermediate): 43.48 |