
摘要
随着全景相机的兴起,单目360度深度估计已成为众多应用(如自动驾驶系统)中的关键技术。为此,当前先进的单目360度深度估计框架,例如BiFuse中的双投影融合方法,应运而生。然而,训练此类框架需要大量由激光传感器捕获的全景图像及其对应的深度真值数据,这显著增加了数据采集的成本。此外,由于数据采集过程耗时较长,将这些方法扩展至不同场景的可扩展性面临严峻挑战。为缓解这一问题,利用360度视频对网络进行自训练成为一种可行方案。然而,目前尚无现有框架将双投影融合机制融入自训练范式中,这严重限制了自监督学习的性能,因为双投影融合能够有效利用不同投影方式所携带的信息。针对这一问题,本文提出BiFuse++,旨在探索双投影融合与自训练机制的有机结合。具体而言,我们设计了一种新型融合模块,并引入对比感知光度损失(Contrast-Aware Photometric Loss),以提升BiFuse的性能,并增强在真实世界视频上的自训练稳定性。我们在基准数据集上开展了监督与自监督实验,结果表明,所提方法在各项指标上均达到当前最优水平,验证了其有效性与先进性。
代码仓库
fuenwang/bifusev2
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| depth-estimation-on-stanford2d3d-panoramic | BiFuse++ | RMSE: 0.372 absolute relative error: 0.1117 |