3 个月前

CroCo v2:面向立体匹配与光流任务的改进型跨视角补全预训练

CroCo v2:面向立体匹配与光流任务的改进型跨视角补全预训练

摘要

尽管自监督预训练方法在高层下游任务中表现出色,但在密集几何视觉任务(如立体匹配或光流估计)方面尚未充分实现其潜力。将自监督学习范式(如实例判别或掩码图像建模)应用于几何任务,目前仍是活跃的研究方向。本文基于近期提出的跨视角补全框架——一种基于掩码图像建模的变体,该框架利用同一场景的第二视角图像,因而特别适用于双目下游任务。然而,该方法的适用性至今仍受到至少两个方面的限制:(a)真实世界图像对的采集难度较大,实践中仅使用了合成数据;(b)标准视觉Transformer在密集下游任务中泛化能力有限,因其对绝对位置的依赖较强,而此类任务中相对位置信息更具意义。为此,本文探索了三个改进方向。首先,我们提出一种大规模采集高质量真实世界图像对的方法。其次,我们尝试引入相对位置嵌入(relative positional embeddings),并实验证明其可显著提升视觉Transformer在密集几何任务中的表现。第三,我们通过利用海量数据,对基于视觉Transformer的跨视角补全过程架构进行了规模化扩展。借助上述改进,我们首次在立体匹配与光流估计任务上实现了当前最优性能,且无需依赖传统任务特定技术,如相关体积(correlation volume)、迭代估计、图像扭曲(image warping)或多尺度推理。这一成果为构建通用视觉模型开辟了新路径。

代码仓库

naver/croco
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
optical-flow-estimation-on-kitti-2012CroCo-Flow
Average End-Point Error: 0.8
Noc: 0.5
Out-Noc: 1.57
optical-flow-estimation-on-kitti-2015CroCo-Flow
Fl-all: 3.64
Fl-fg: 3.18
optical-flow-estimation-on-sintel-cleanCroCo-Flow
Average End-Point Error: 1.092
optical-flow-estimation-on-sintel-finalCroCo-Flow
Average End-Point Error: 2.436

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CroCo v2:面向立体匹配与光流任务的改进型跨视角补全预训练 | 论文 | HyperAI超神经