6 个月前

卷积神经网络

计算机视觉

Yukyung Choi Soomnim Hwang Namil Kim Jeongmin Shin Daechan Han

摘要

近年来，Transformer架构因其能够有效建模图像中长距离空间依赖关系，在多种计算机视觉任务中得到广泛应用，并展现出令人瞩目的性能。然而，将Transformer应用于自监督深度估计的研究仍十分有限。在自监督深度学习中用Transformer替代传统CNN架构时，我们面临若干挑战，例如在与Transformer结合时，多尺度光度损失函数表现不稳定，且模型捕捉局部细节的能力不足。针对上述问题，本文提出一种基于注意力机制的解码模块——像素级跳跃注意力（Pixel-Wise Skip Attention, PWSA），该模块在保留Transformer所提取的全局上下文信息的同时，显著增强特征图中的精细细节表达。此外，我们引入单尺度光度损失与自蒸馏损失相结合的训练策略，通过提供更准确的监督信号，有效缓解了Transformer训练过程中的不稳定性。实验结果表明，所提出的模型在需要兼顾全局上下文与局部细节的大尺度物体及细长结构的深度预测任务中均能实现高精度估计。在KITTI与DDAD两个基准数据集上，本方法在自监督单目深度估计领域达到了当前最优的性能水平。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Yukyung Choi Soomnim Hwang Namil Kim Jeongmin Shin Daechan Han

摘要

近年来，Transformer架构因其能够有效建模图像中长距离空间依赖关系，在多种计算机视觉任务中得到广泛应用，并展现出令人瞩目的性能。然而，将Transformer应用于自监督深度估计的研究仍十分有限。在自监督深度学习中用Transformer替代传统CNN架构时，我们面临若干挑战，例如在与Transformer结合时，多尺度光度损失函数表现不稳定，且模型捕捉局部细节的能力不足。针对上述问题，本文提出一种基于注意力机制的解码模块——像素级跳跃注意力（Pixel-Wise Skip Attention, PWSA），该模块在保留Transformer所提取的全局上下文信息的同时，显著增强特征图中的精细细节表达。此外，我们引入单尺度光度损失与自蒸馏损失相结合的训练策略，通过提供更准确的监督信号，有效缓解了Transformer训练过程中的不稳定性。实验结果表明，所提出的模型在需要兼顾全局上下文与局部细节的大尺度物体及细长结构的深度预测任务中均能实现高精度估计。在KITTI与DDAD两个基准数据集上，本方法在自监督单目深度估计领域达到了当前最优的性能水平。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供