3 个月前

DPFlow:基于双金字塔框架的自适应光流估计

DPFlow:基于双金字塔框架的自适应光流估计

摘要

光流估计在视频处理任务中至关重要,例如视频修复与动作识别。随着视频质量的持续提升,当前视频标准已达到8K分辨率。然而,现有的光流方法通常针对低分辨率输入设计,其结构固定,难以泛化至大尺寸输入。为降低输入规模,这些方法常采用下采样或分块输入策略,导致细节信息与全局上下文的丢失。此外,缺乏能够真实评估现有方法在高分辨率样本上性能的光流基准测试集。以往研究仅在人工挑选的样本上进行定性高分辨率评估,难以全面反映方法的实际表现。本文从两个方面填补了高分辨率光流估计领域的空白。首先,我们提出DPFlow——一种具备自适应能力的光流架构,能够在仅使用低分辨率样本训练的前提下,实现对8K分辨率输入的泛化。其次,我们构建了Kubric-NK,一个全新的光流评估基准,涵盖从1K到8K分辨率的多种输入尺度。我们的高分辨率评估推动了现有方法的边界,并揭示了其泛化能力的新见解。大量实验结果表明,DPFlow在MPI-Sintel、KITTI 2015、Spring等多个高分辨率基准上均取得了当前最优(SOTA)性能。

代码仓库

hmorimitsu/ptlflow
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
optical-flow-estimation-on-kitti-2015DPFlow
Fl-all: 3.56
Fl-fg: 4.93
optical-flow-estimation-on-kitti-2015-trainDPFlow
EPE: 3.37
F1-all: 11.1
optical-flow-estimation-on-sintel-cleanDPFlow
Average End-Point Error: 1.046
optical-flow-estimation-on-sintel-finalDPFlow
Average End-Point Error: 1.975
optical-flow-estimation-on-springDPFlow
1px total: 3.442

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DPFlow:基于双金字塔框架的自适应光流估计 | 论文 | HyperAI超神经