3 个月前

自监督多帧单目场景流

自监督多帧单目场景流

摘要

从一系列单目图像中估计三维场景流(3D scene flow)因其采集设备简单、成本低廉而受到越来越多关注。然而,由于该问题具有严重的病态性(ill-posedness),现有方法的精度受到限制,尤其是高效且支持实时运行的方法。本文提出一种基于自监督学习的多帧单目场景流网络,在保持实时效率的同时显著提升了精度。在先进的两帧基准模型(采用分叉解码器结构)基础上,我们提出了三项关键改进:(i)采用三帧输入并引入卷积长短期记忆网络(convolutional LSTM)连接的多帧建模结构;(ii)设计一种考虑遮挡情况的census损失函数,以提升估计精度;(iii)引入梯度分离策略,增强训练过程的稳定性。在KITTI数据集上的实验结果表明,本方法在基于自监督学习的单目场景流方法中达到了当前最优的精度水平。

代码仓库

visinf/multi-mono-sf
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-flow-estimation-on-kitti-2015-sceneMulti-Mono-SF
Runtime (s): 0.063
D1-all: 27.33
D2-all: 30.44
Fl-all: 18.92
SF-all: 39.82
scene-flow-estimation-on-kitti-2015-scene-1Multi-Mono-SF
D1-all: 30.78
D2-all: 34.41
Fl-all: 19.54
Runtime (s): 0.063
SF-all: 44.04

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督多帧单目场景流 | 论文 | HyperAI超神经