3 个月前

基于全局运动聚合的学习隐式运动估计

基于全局运动聚合的学习隐式运动估计

摘要

遮挡问题对依赖局部证据的光流算法构成了重大挑战。本文将遮挡点定义为在第一帧中被成像但在第二帧中未被成像的点,这一定义略显宽泛,因为它也包含了移出图像边界点的情况。在仅使用两帧图像的设定下,估计这些遮挡点的运动尤为困难。以往的方法要么依赖卷积神经网络(CNN)学习遮挡,但效果有限;要么需要多帧图像,借助时间平滑性来推断遮挡情况。本文提出,通过建模图像的自相似性,可以在两帧设定下更有效地解决遮挡问题。为此,我们引入了一种全局运动聚合模块(Global Motion Aggregation, GMA),该模块基于Transformer架构,用于捕捉第一帧图像中像素间的长程依赖关系,并对对应的运动特征进行全局聚合。实验表明,该方法显著提升了遮挡区域的光流估计精度,同时未对非遮挡区域的性能造成负面影响。在具有挑战性的Sintel数据集上,该方法取得了新的最先进成果:在Sintel Final测试集上平均端点误差降低了13.6%,在Sintel Clean测试集上降低了13.7%。在投稿时,本方法在所有已发表及未发表的方法中均排名第一。代码已开源,地址为:https://github.com/zacjiang/GMA。

代码仓库

zacjiang/GMA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
optical-flow-estimation-on-kitti-2015-trainGMA
EPE: 4.69
F1-all: 17.1
optical-flow-estimation-on-sintel-cleanGMA
Average End-Point Error: 1.388
optical-flow-estimation-on-sintel-finalGMA
Average End-Point Error: 2.470
optical-flow-estimation-on-springGMA
1px total: 7.074

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于全局运动聚合的学习隐式运动估计 | 论文 | HyperAI超神经