
摘要
本文研究了从同步的二维(2D)与三维(3D)数据中联合估计光流(optical flow)与场景流(scene flow)的问题。以往的方法通常采用复杂的处理流程,将联合任务分解为独立的多个阶段,或以“早期融合”(early-fusion)或“晚期融合”(late-fusion)的方式融合2D与3D信息。这类“一刀切”的方法往往面临两难困境:既无法充分挖掘各模态的特性,也无法最大化模态间的互补优势。为解决该问题,我们提出一种新颖的端到端框架——CamLiFlow。该框架包含2D与3D两个分支,并在特定层间引入多路双向连接,实现跨模态的深度交互。与以往方法不同,我们采用基于点云的3D分支,以更有效地提取几何特征,并设计了一种对称可学习的融合算子,用于融合密集的图像特征与稀疏的点云特征。实验结果表明,CamLiFlow在保持参数量更少的前提下,取得了更优的性能。在KITTI场景流基准测试中,我们的方法排名第一,性能超越此前最优方法,且参数量仅为后者的1/7。相关代码已开源,地址为:https://github.com/MCG-NJU/CamLiFlow。
代码仓库
mcg-nju/camliflow
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-flow-estimation-on-spring | CamLiFlow (K) | 1px total: 85.310 |
| scene-flow-estimation-on-spring | CamLiFlow (F) | 1px total: 50.083 |