
摘要
我们提出了4个见解,这些见解有助于显著提升从单张RGB图像预测表面法线和语义标签的深度学习模型的性能。这四个见解包括:(1)对训练集中的“地面真值”表面法线进行去噪,以确保其与语义标签的一致性;(2)同时在真实数据和合成数据的混合数据集上进行训练,而不是先在合成数据上预训练再在真实数据上微调;(3)使用共享模型联合预测法线和语义,但仅对具有有效训练标签的像素反向传播误差;(4)简化模型并使用灰度图像作为输入,而非彩色图像。尽管这些步骤相对简单,但我们展示了在多个数据集上持续改进的结果,并且该模型在标准智能手机上可以达到每秒12帧的运行速度。
代码仓库
StevenHickson/CreateNormals
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-scannetv2 | Floors are Flat | Pixel Accuracy: 65.6 |
| surface-normals-estimation-on-nyu-depth-v2-1 | Floors are Flat | % u003c 11.25: 59.5 % u003c 22.5: 72.2 % u003c 30: 77.3 Mean Angle Error: 19.7 RMSE: 19.3 |
| surface-normals-estimation-on-scannetv2 | Floors are Flat | % u003c 11.25: 50.9 % u003c 22.5: 65.2 % u003c 30: 70 Mean Angle Error: 28 |