
摘要
本文提出了一种名为HITNet的新型神经网络架构,用于实时立体匹配。与许多近期依赖完整代价体(cost volume)并使用三维卷积的神经网络方法不同,我们的方法不显式构建代价体,而是通过快速的多分辨率初始化步骤,结合可微的二维几何传播与图像扭曲机制,推断视差假设。为实现高精度,该网络不仅对视差进行几何推理,还推断斜平面假设,从而更准确地执行几何扭曲与上采样操作。该架构天然具备多分辨率特性,支持跨不同层级的信息传播。大量实验验证了所提方法在计算量仅为当前最先进方法一小部分的情况下,仍能取得卓越性能。截至本文撰写时,HITNet在ETH3D网站公布的双视图立体匹配所有指标上均位列第1至第3名;在Middlebury-v3数据集上,作为端到端学习方法,其在多数指标上排名第一;在广受关注的KITTI 2012与2015基准测试中,对于所有推理速度超过100毫秒的已发表方法,HITNet同样排名第一。
代码仓库
zjjMaiMai/TinyHITNet
pytorch
meteorshowers/X-StereoLab
pytorch
ibaiGorordo/HITNET-Stereo-Depth-estimation
tf
GitHub 中提及
jiaxiZeng/Temporally-Consistent-Stereo-Matching
pytorch
GitHub 中提及
ibaiGorordo/ONNX-HITNET-Stereo-Depth-estimation
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| stereo-depth-estimation-on-kitti2015 | HITNET | three pixel error: 2.43 |