
摘要
稠密光流估计在众多机器人视觉任务中发挥着关键作用。近年来,随着深度学习的兴起,光流估计领域取得了显著进展。然而,当前大多数网络模型参数量庞大,计算开销高,严重制约了其在低功耗设备(如智能手机)上的实际应用。针对这一挑战,本文提出一种轻量化模型,实现快速且精确的光流预测。所提出的FastFlowNet遵循广泛采用的“粗到细”(coarse-to-fine)框架,并引入以下三项创新:第一,设计了一种新型的头增强池化金字塔(Head Enhanced Pooling Pyramid, HEPP)特征提取器,在增强高分辨率金字塔特征的同时有效减少参数量;第二,提出一种新型中心密集空洞相关层(Center Dense Dilated Correlation, CDDC),用于构建紧凑的代价体(cost volume),在保持大搜索范围的同时显著降低计算负担;第三,在每一金字塔层级中引入高效的通道混洗块解码器(Shuffle Block Decoder, SBD),在精度损失极小的前提下大幅提升光流估计速度。在合成数据集Sintel和真实世界数据集KITTI上的实验结果表明,所提方法具有优异的性能:仅需同类网络约1/10的计算量,即可达到相当的精度水平。特别地,FastFlowNet模型仅包含137万参数,在单张GTX 1080Ti显卡上可实现90帧/秒(FPS)的推理速度,或在嵌入式Jetson TX2 GPU上实现5.7 FPS的处理速度,适用于分辨率为1024×436的Sintel图像对。
代码仓库
ltkong218/FastFlowNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| optical-flow-estimation-on-kitti-2012 | FastFlowNet-ft | Average End-Point Error: 1.8 |
| optical-flow-estimation-on-kitti-2015 | FastFlowNet-ft | Fl-all: 11.22 |
| optical-flow-estimation-on-kitti-2015-train | FastFlowNet | EPE: 12.24 F1-all: 33.1 |
| optical-flow-estimation-on-sintel-clean | FastFlowNet-ft | Average End-Point Error: 4.89 |
| optical-flow-estimation-on-sintel-final | FastFlowNet-ft | Average End-Point Error: 6.08 |