4 个月前

面向真实世界布局的场景适应：一种具有深度感知的框架

摘要

通过无监督域适应（UDA）进行场景分割，可以将从源合成数据中获得的知识转移到目标真实数据中，从而大幅减少目标域中手动像素级注释的需求。为了促进域不变特征的学习，现有方法通常通过简单复制和粘贴像素来混合源域和目标域的数据。然而，这些基本方法通常效果不佳，因为它们没有考虑混合布局与现实场景的对应程度。现实场景具有固有的布局。我们观察到，诸如人行道、建筑物和天空等语义类别在深度分布上表现出相对一致性，并且可以在深度图中清晰区分。基于这一观察结果，我们提出了一种深度感知框架，显式利用深度估计来混合类别，并以端到端的方式促进两个互补任务——即分割和深度学习。具体而言，该框架包含一个用于数据增强的深度引导上下文滤波器（Depth-guided Contextual Filter, DCF）和一个用于上下文学习的跨任务编码器。DCF 模拟了现实世界的布局，而跨任务编码器则进一步自适应地融合了两个任务之间的互补特征。此外，值得注意的是，一些公开数据集并未提供深度注释。因此，我们利用现成的深度估计网络生成伪深度图。大量实验表明，即使使用伪深度图，我们所提出的方法在两个广泛使用的基准测试中仍取得了具有竞争力的性能表现：GTA 到 Cityscapes 的 mIoU 为 77.7%，Synthia 到 Cityscapes 的 mIoU 为 69.3%。

代码仓库

chen742/DCF

官方

pytorch

GitHub 中提及

chen742/PiPa

pytorch

GitHub 中提及

基准测试

基准	方法	指标
domain-adaptation-on-gta5-to-cityscapes	DCF	mIoU: 77.7
domain-adaptation-on-synthia-to-cityscapes	DCF	mIoU: 69.3
synthetic-to-real-translation-on-gtav-to	DCF	mIoU: 77.7
synthetic-to-real-translation-on-synthia-to-1	DCF	MIoU (13 classes): 75.9 MIoU (16 classes): 69.3
unsupervised-domain-adaptation-on-synthia-to	DCF	MIoU (16 classes): 69.3 mIoU: 69.3 mIoU (13 classes): 75.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供