
摘要
从4D光场(Light Field, LF)图像中进行深度(视差)估计是近年来的研究热点。现有大多数研究集中于从静态4D光场图像中估计深度,而未充分考虑时间维度信息,即未针对光场视频(LF videos)开展研究。本文提出了一种端到端的神经网络架构,用于从4D光场视频中进行深度估计。同时,本研究构建了一个中等规模的合成4D光场视频数据集,可用于基于深度学习方法的训练。在合成数据与真实世界4D光场视频上的实验结果表明,引入时间信息能够有效提升在噪声区域的深度估计精度。相关数据集与代码已公开,地址为:https://mediaeng-lfv.github.io/LFV_Disparity_Estimation
代码仓库
mediaeng-lfv/LFV_Disparity_Estimation
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| disparity-estimation-on-sintel-4d-lfv | Two-stream CNN+CLSTM | BadPix(0.01): 62.0493 BadPix(0.03): 22.8762 BadPix(0.07): 8.3404 MSE*100: 21.67 |
| disparity-estimation-on-sintel-4d-lfv-1 | Two-stream CNN+CLSTM | BadPix(0.01): 17.7493 BadPix(0.03): 3.6084 BadPix(0.05): 1.0688 MSE*100: 3.67 |
| disparity-estimation-on-sintel-4d-lfv-bamboo3 | Two-stream CNN+CLSTM | BadPix(0.01): 53.2985 BadPix(0.03): 21.8162 BadPix(0.07): 8.9475 MSE*100: 21.59 |
| disparity-estimation-on-sintel-4d-lfv-shaman2 | Two-stream CNN+CLSTM | BadPix(0.01): 74.7733 BadPix(0.03): 50.6706 BadPix(0.07): 32.7585 MSE*100: 2.4421 |