6 个月前

摘要

大规模预训练的潜在扩散模型（Latent Diffusion Models, LDMs）展现出生成创意内容的非凡能力，可通过少量样本微调适应用户数据，并能够基于其他模态（如语义地图）进行条件生成。然而，它们是否可作为大规模数据生成工具，例如用于提升感知系统中的各项任务（如语义分割）？我们在自动驾驶的背景下探讨了这一问题，并给出了明确的肯定回答：“是的”。为此，我们提出了一种高效的数据生成流程——DGInStyle。首先，我们研究了如何将预训练的LDM专门化于特定狭窄领域内的语义可控生成。其次，我们提出了一种“风格替换”（Style Swap）技术，使模型能够融合学习到的语义控制能力，从而赋予其丰富的生成先验以精确的语义调控能力。第三，我们设计了一种多分辨率潜在融合（Multi-resolution Latent Fusion）机制，有效缓解了LDM对主导物体的固有偏好问题。基于DGInStyle，我们生成了一个多样化的真实街景数据集，在该数据集上训练了一个领域无关的语义分割模型，并在多个主流自动驾驶数据集上对其性能进行了评估。实验结果表明，与先前的最先进方法相比，我们的方法显著提升了多种领域泛化方法的性能表现。相关源代码与生成的数据集已公开，访问地址为：https://dginstyle.github.io。

源 PDF