
摘要
从一系列单目图像中估计三维场景流(3D scene flow)因其采集设备简单、成本低廉而受到越来越多关注。然而,由于该问题具有严重的病态性(ill-posedness),现有方法的精度受到限制,尤其是高效且支持实时运行的方法。本文提出一种基于自监督学习的多帧单目场景流网络,在保持实时效率的同时显著提升了精度。在先进的两帧基准模型(采用分叉解码器结构)基础上,我们提出了三项关键改进:(i)采用三帧输入并引入卷积长短期记忆网络(convolutional LSTM)连接的多帧建模结构;(ii)设计一种考虑遮挡情况的census损失函数,以提升估计精度;(iii)引入梯度分离策略,增强训练过程的稳定性。在KITTI数据集上的实验结果表明,本方法在基于自监督学习的单目场景流方法中达到了当前最优的精度水平。
代码仓库
visinf/multi-mono-sf
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-flow-estimation-on-kitti-2015-scene | Multi-Mono-SF | Runtime (s): 0.063 D1-all: 27.33 D2-all: 30.44 Fl-all: 18.92 SF-all: 39.82 |
| scene-flow-estimation-on-kitti-2015-scene-1 | Multi-Mono-SF | D1-all: 30.78 D2-all: 34.41 Fl-all: 19.54 Runtime (s): 0.063 SF-all: 44.04 |