3 个月前

TransDSSL:基于Transformer的自监督深度估计

TransDSSL:基于Transformer的自监督深度估计

摘要

近年来,Transformer架构因其能够有效建模图像中长距离空间依赖关系,在多种计算机视觉任务中得到广泛应用,并展现出令人瞩目的性能。然而,将Transformer应用于自监督深度估计的研究仍十分有限。在自监督深度学习中用Transformer替代传统CNN架构时,我们面临若干挑战,例如在与Transformer结合时,多尺度光度损失函数表现不稳定,且模型捕捉局部细节的能力不足。针对上述问题,本文提出一种基于注意力机制的解码模块——像素级跳跃注意力(Pixel-Wise Skip Attention, PWSA),该模块在保留Transformer所提取的全局上下文信息的同时,显著增强特征图中的精细细节表达。此外,我们引入单尺度光度损失与自蒸馏损失相结合的训练策略,通过提供更准确的监督信号,有效缓解了Transformer训练过程中的不稳定性。实验结果表明,所提出的模型在需要兼顾全局上下文与局部细节的大尺度物体及细长结构的深度预测任务中均能实现高精度估计。在KITTI与DDAD两个基准数据集上,本方法在自监督单目深度估计领域达到了当前最优的性能水平。

基准测试

基准方法指标
monocular-depth-estimation-on-ddadTransDSSL
RMSE: 14.350
RMSE log: 0.172
Sq Rel: 3.591
absolute relative error: 0.151
monocular-depth-estimation-on-kitti-eigen-1TransDSSL
Delta u003c 1.25: 0.906
Delta u003c 1.25^2: 0.967
Delta u003c 1.25^3: 0.984
Mono: O
RMSE: 4.321
RMSE log: 0.172
Sq Rel: 0.711
absolute relative error: 0.095

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransDSSL:基于Transformer的自监督深度估计 | 论文 | HyperAI超神经