
摘要
我们通过将经典的分层金字塔结构与深度学习相结合,实现光流的计算。该方法采用自粗到细的策略,在每一层金字塔上,利用当前的光流估计对图像对中的一幅图像进行形变(warping),并据此计算光流的更新。与以往在每一层金字塔上标准地最小化目标函数不同,我们为每一层训练一个深度网络来直接计算光流的更新。与近期提出的FlowNet方法不同,本方法中的网络无需处理大尺度运动——这些大运动由金字塔结构本身处理。这一设计带来了多个优势:首先,我们的空间金字塔网络(SPyNet)在模型参数量上比FlowNet小96%,结构也更为简洁,因而更加高效,更适合嵌入式应用场景;其次,由于在每一层金字塔上的光流变化较小(小于1像素),对形变后的图像对采用卷积方法是合适的;第三,与FlowNet不同,我们学习到的卷积核滤波器在形态上与经典的空间-时间滤波器相似,这为理解该方法及其改进方向提供了直观的启示。在多数标准基准测试中,我们的方法精度均优于FlowNet,表明将经典光流方法与深度学习相结合是一种具有前景的新方向。
代码仓库
anuragranj/spynet
官方
pytorch
GitHub 中提及
GibranBenitez/IPN-hand
pytorch
GitHub 中提及
Yijunmaverick/FlowGrounded-VideoPrediction
pytorch
GitHub 中提及
Guillem96/spynet-pytorch
pytorch
sniklaus/pytorch-spynet
pytorch
GitHub 中提及
rickyHong/tfoptflow-repl
tf
GitHub 中提及
guanfuchen/video_obj
pytorch
GitHub 中提及
philferriere/tfoptflow
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-pixel-correspondence-estimation-on | SPyNet | Viewpoint I AEPE: 36.94 Viewpoint II AEPE: 50.92 Viewpoint III AEPE: 54.29 Viewpoint IV AEPE: 62.60 Viewpoint V AEPE: 72.57 |
| optical-flow-estimation-on-sintel-clean | Spynet | Average End-Point Error: 6.64 |
| optical-flow-estimation-on-sintel-final | Spynet | Average End-Point Error: 8.36 |
| optical-flow-estimation-on-spring | SPyNet | 1px total: 29.963 |