4 个月前

每个像素都很重要++:几何与运动的联合学习及三维整体理解

每个像素都很重要++:几何与运动的联合学习及三维整体理解

摘要

通过观看未标记的视频,利用深度卷积网络从单帧图像中学习估计三维几何结构以及从连续帧中学习估计光流,近年来取得了显著进展。目前最先进的(SoTA)方法通常将这两个任务分开处理。现有的深度估计方法的一个典型假设是场景中不含独立运动物体,而物体的运动则可以通过光流轻松建模。在本文中,我们提出了一种整体解决这两个任务的方法,即同时理解每个像素的三维几何结构和运动。这消除了对静态场景假设的需求,并在学习过程中强制执行内在的几何一致性,从而显著提高了两个任务的结果。我们将该方法称为“每一像素都很重要++”(Every Pixel Counts++)或“EPC++”。具体而言,在训练过程中,给定视频中的两帧连续图像,我们采用了三个并行网络分别预测相机运动(MotionNet)、密集深度图(DepthNet)以及两帧之间的每个像素光流(OptFlowNet)。这三种信息被输入到一个整体的三维运动解析器(Holistic 3D Motion Parser, HMP),从而解耦并恢复刚性背景和运动物体的每个像素的三维运动。我们在包含不同场景的数据集上进行了全面实验,包括驾驶场景(KITTI 2012 和 KITTI 2015 数据集)、混合室内外场景(Make3D)以及合成动画(MPI Sintel 数据集)。在深度估计、光流估计、里程计、运动物体分割和场景流估计这五个任务上的性能表明,我们的方法优于其他最先进的方法。代码将在以下地址提供:https://github.com/chenxuluo/EPC。

代码仓库

chenxuluo/EPC
官方
tf
GitHub 中提及

基准测试

基准方法指标
scene-flow-estimation-on-kitti-2015-sceneEPC++
Runtime (s): 0.05
D1-all: 23.84
D2-all: 60.32
Fl-all: 19.64
SF-all: (u003e60.32)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
每个像素都很重要++:几何与运动的联合学习及三维整体理解 | 论文 | HyperAI超神经