4 个月前

每个像素都很重要:基于整体3D运动理解的无监督几何学习

每个像素都很重要:基于整体3D运动理解的无监督几何学习

摘要

通过深度卷积网络观看未标记视频来学习单幅图像中的3D几何估计最近取得了显著进展。目前最先进的(SOTA)方法基于刚性结构从运动的学习框架,其中仅对用于几何估计的3D相机自我运动进行建模。然而,许多视频中也存在移动物体,例如街景中的行驶汽车。在本文中,我们通过将每个像素的3D物体运动纳入学习框架来解决这种运动问题,这不仅提供了整体的3D场景流理解,还帮助了单幅图像的几何估计。具体而言,给定视频中的两帧连续图像,我们采用一个运动网络来预测它们之间的相对3D相机姿态和一个区分移动物体与刚性背景的分割掩码。光学流网络用于估计密集的2D每个像素对应关系。单幅图像深度网络则为两张图像预测深度图。这四种信息,即2D流、相机姿态、分割掩码和深度图,被整合到一个可微的整体3D运动解析器(Holistic 3D Motion Parser, HMP)中,在此解析器中恢复刚性背景和移动物体的每个像素的3D运动。我们针对这两种类型的3D运动设计了多种损失函数,以训练深度和运动网络,从而进一步减少几何估计的误差。最后,为了消除单目视频中的3D运动混淆问题,我们将立体图像纳入联合训练中。在KITTI 2015数据集上的实验表明,我们的几何估计、3D运动和移动物体掩码不仅保持了一致性,而且显著优于其他最先进的算法,证明了我们方法的优势。

基准测试

基准方法指标
scene-flow-estimation-on-kitti-2015-sceneEPC
Runtime (s): 0.05
D1-all: 26.81
D2-all: 60.97
Fl-all: 25.74
SF-all: (u003e60.97)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
每个像素都很重要:基于整体3D运动理解的无监督几何学习 | 论文 | HyperAI超神经