3 个月前

DGInStyle:基于图像扩散模型与风格化语义控制的领域泛化语义分割

DGInStyle:基于图像扩散模型与风格化语义控制的领域泛化语义分割

摘要

大规模预训练的潜在扩散模型(Latent Diffusion Models, LDMs)展现出生成创意内容的非凡能力,可通过少量样本微调适应用户数据,并能够基于其他模态(如语义地图)进行条件生成。然而,它们是否可作为大规模数据生成工具,例如用于提升感知系统中的各项任务(如语义分割)?我们在自动驾驶的背景下探讨了这一问题,并给出了明确的肯定回答:“是的”。为此,我们提出了一种高效的数据生成流程——DGInStyle。首先,我们研究了如何将预训练的LDM专门化于特定狭窄领域内的语义可控生成。其次,我们提出了一种“风格替换”(Style Swap)技术,使模型能够融合学习到的语义控制能力,从而赋予其丰富的生成先验以精确的语义调控能力。第三,我们设计了一种多分辨率潜在融合(Multi-resolution Latent Fusion)机制,有效缓解了LDM对主导物体的固有偏好问题。基于DGInStyle,我们生成了一个多样化的真实街景数据集,在该数据集上训练了一个领域无关的语义分割模型,并在多个主流自动驾驶数据集上对其性能进行了评估。实验结果表明,与先前的最先进方法相比,我们的方法显著提升了多种领域泛化方法的性能表现。相关源代码与生成的数据集已公开,访问地址为:https://dginstyle.github.io。

基准测试

基准方法指标
domain-generalization-on-gta-to-avgDGInStyle
mIoU: 57.78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DGInStyle:基于图像扩散模型与风格化语义控制的领域泛化语义分割 | 论文 | HyperAI超神经