7 个月前

摘要

通过观看未标记的视频，利用深度卷积网络从单帧图像中学习估计三维几何结构以及从连续帧中学习估计光流，近年来取得了显著进展。目前最先进的（SoTA）方法通常将这两个任务分开处理。现有的深度估计方法的一个典型假设是场景中不含独立运动物体，而物体的运动则可以通过光流轻松建模。在本文中，我们提出了一种整体解决这两个任务的方法，即同时理解每个像素的三维几何结构和运动。这消除了对静态场景假设的需求，并在学习过程中强制执行内在的几何一致性，从而显著提高了两个任务的结果。我们将该方法称为“每一像素都很重要++”（Every Pixel Counts++）或“EPC++”。具体而言，在训练过程中，给定视频中的两帧连续图像，我们采用了三个并行网络分别预测相机运动（MotionNet）、密集深度图（DepthNet）以及两帧之间的每个像素光流（OptFlowNet）。这三种信息被输入到一个整体的三维运动解析器（Holistic 3D Motion Parser, HMP），从而解耦并恢复刚性背景和运动物体的每个像素的三维运动。我们在包含不同场景的数据集上进行了全面实验，包括驾驶场景（KITTI 2012 和 KITTI 2015 数据集）、混合室内外场景（Make3D）以及合成动画（MPI Sintel 数据集）。在深度估计、光流估计、里程计、运动物体分割和场景流估计这五个任务上的性能表明，我们的方法优于其他最先进的方法。代码将在以下地址提供：https://github.com/chenxuluo/EPC。

源 PDF