3 个月前

Chitransformer:面向可靠立体视觉的线索探索

Chitransformer:面向可靠立体视觉的线索探索

摘要

当前的立体匹配技术面临搜索空间受限、遮挡区域以及图像规模庞大等挑战。尽管单目深度估计可规避上述问题,并通过提取单目线索获得令人满意的结果,但由于缺乏立体视觉关系,其预测结果在独立使用时可靠性较低,尤其在高度动态或复杂杂乱的环境中更为明显。为解决上述两种场景下的问题,本文提出一种受视交叉(optic chiasm)结构启发的自监督双目深度估计方法。该方法设计了一种带有门控位置交叉注意力(Gated Positional Cross-Attention, GPCA)层的视觉变换器(Vision Transformer, ViT),能够在不同视角间实现特征敏感的模式检索,同时通过自注意力机制保留广泛的空间上下文信息。随后,利用检索到的特征模式对单视图中的单目线索进行条件性校正,通过一个融合层实现优化。该交叉式结构在生物学上类比于人类视觉系统中的视交叉结构,因此命名为ChiTransformer。实验结果表明,该架构相较当前最先进的自监督立体匹配方法,在性能上实现了11%的显著提升,并可适用于直线投影(rectilinear)及非直线投影(如鱼眼镜头)图像。

基准测试

基准方法指标
stereo-depth-estimation-on-kitti2015ChiTransformer
D1-all All: 2.60 (self-sup.)
D1-all Noc: 2.38 (self-sup.)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Chitransformer:面向可靠立体视觉的线索探索 | 论文 | HyperAI超神经