
摘要
FlowNet表明,光流估计可以被建模为一个学习问题。然而,当前光流估计的精度水平仍然由传统方法所主导。特别是在小位移以及真实世界数据上,FlowNet难以与变分方法相媲美。本文进一步推进了光流端到端学习的理念,并使其真正实现了卓越性能。质量与速度的显著提升主要归功于三项关键贡献:第一,我们聚焦于训练数据,证明了训练过程中数据呈现的顺序对模型性能具有极为重要的影响;第二,我们提出了一种堆叠式网络架构,其中包含利用中间光流对第二帧图像进行形变(warping)的操作;第三,我们通过引入一个专门处理小运动的子网络,进一步优化了对小位移的建模能力。FlowNet 2.0的运行速度仅比原始FlowNet略慢,但其估计误差降低了超过50%。它在性能上已达到当前最先进方法的水平,同时能够以交互式帧率运行。此外,我们还提出了若干更快的变体,可在保持与原始FlowNet相当精度的前提下,实现高达140帧/秒的光流计算速度。
代码仓库
NVIDIA/flownet2-pytorch
pytorch
GitHub 中提及
lab-midas/lapnet
tf
GitHub 中提及
ElliotHYLee/VisualOdometry3D
pytorch
GitHub 中提及
mcgridles/LENS
pytorch
GitHub 中提及
simonmeister/UnFlow
tf
GitHub 中提及
rickyHong/tfoptflow-repl
tf
GitHub 中提及
philferriere/tfoptflow
tf
GitHub 中提及
open-mmlab/mmflow
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-pixel-correspondence-estimation-on | FlowNet2 | Viewpoint I AEPE: 5.99 Viewpoint II AEPE: 15.55 Viewpoint III AEPE: 17.09 Viewpoint IV AEPE: 22.13 Viewpoint V AEPE: 30.68 |
| optical-flow-estimation-on-kitti-2015-train | FlowNet2 | EPE: 10.08 F1-all: 30.0 |
| optical-flow-estimation-on-sintel-clean | FlowNet2 | Average End-Point Error: 3.96 |
| optical-flow-estimation-on-spring | FlowNet2 | 1px total: 6.710 |
| skeleton-based-action-recognition-on-jhmdb | FlowNet2 | PCK@0.1: 45.2 PCK@0.2: 62.9 PCK@0.3: 73.5 PCK@0.4: 80.6 PCK@0.5: 85.5 |