4 个月前

利用时间一致性进行实时视频深度估计

利用时间一致性进行实时视频深度估计

摘要

近年来,通过利用深度卷积神经网络(CNN)的层次特征,静态图像的深度估计精度得到了显著提升。与静态图像相比,视频帧之间存在大量信息,可以被利用来提高深度估计性能。在本研究中,我们专注于从单目视频中探索时间信息以进行深度估计。具体而言,我们利用了卷积长短期记忆(Convolutional Long Short-Term Memory, CLSTM)的优势,并提出了一种新颖的空间-时间CLSTM(Spatial-Temporal Convolutional Long Short-Term Memory, ST-CLSTM)结构。我们的ST-CLSTM结构不仅能够捕捉空间特征,还能在几乎不增加计算成本的情况下捕捉连续视频帧之间的时序相关性和一致性。此外,为了保持估计深度帧之间的时间一致性,我们采用了生成对抗学习方案并设计了时间一致性损失函数。时间一致性损失函数与空间损失函数结合,以端到端的方式更新模型。通过利用时间信息,我们构建了一个实时运行且生成视觉效果良好的视频深度估计框架。此外,我们的方法具有灵活性,可以推广到大多数现有的深度估计框架中。代码可从以下链接获取:https://tinyurl.com/STCLSTM

代码仓库

Adelaide-AI-Group/ST-CLSTM
pytorch
GitHub 中提及
weihaox/ST-CLSTM
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-mid-air-datasetST-CLSTM
Abs Rel: 0.4040
RMSE: 13.685
RMSE log: 0.4383
SQ Rel: 6.3902

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用时间一致性进行实时视频深度估计 | 论文 | HyperAI超神经