
摘要
遮挡问题对依赖局部证据的光流算法构成了重大挑战。本文将遮挡点定义为在第一帧中被成像但在第二帧中未被成像的点,这一定义略显宽泛,因为它也包含了移出图像边界点的情况。在仅使用两帧图像的设定下,估计这些遮挡点的运动尤为困难。以往的方法要么依赖卷积神经网络(CNN)学习遮挡,但效果有限;要么需要多帧图像,借助时间平滑性来推断遮挡情况。本文提出,通过建模图像的自相似性,可以在两帧设定下更有效地解决遮挡问题。为此,我们引入了一种全局运动聚合模块(Global Motion Aggregation, GMA),该模块基于Transformer架构,用于捕捉第一帧图像中像素间的长程依赖关系,并对对应的运动特征进行全局聚合。实验表明,该方法显著提升了遮挡区域的光流估计精度,同时未对非遮挡区域的性能造成负面影响。在具有挑战性的Sintel数据集上,该方法取得了新的最先进成果:在Sintel Final测试集上平均端点误差降低了13.6%,在Sintel Clean测试集上降低了13.7%。在投稿时,本方法在所有已发表及未发表的方法中均排名第一。代码已开源,地址为:https://github.com/zacjiang/GMA。
代码仓库
zacjiang/GMA
官方
pytorch
GitHub 中提及
open-mmlab/mmflow
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| optical-flow-estimation-on-kitti-2015-train | GMA | EPE: 4.69 F1-all: 17.1 |
| optical-flow-estimation-on-sintel-clean | GMA | Average End-Point Error: 1.388 |
| optical-flow-estimation-on-sintel-final | GMA | Average End-Point Error: 2.470 |
| optical-flow-estimation-on-spring | GMA | 1px total: 7.074 |