
摘要
去噪扩散模型(Denoising Diffusion Models, DDMs)在三维点云生成任务中展现了令人瞩目的成果。为了推动三维DDMs的发展,并使其真正服务于数字艺术家,我们需要满足三个关键要求:(i)高质量的生成能力,(ii)灵活的可操控性与应用扩展能力,例如支持条件生成与形状插值,(iii)能够输出光滑的表面或网格结构。为此,我们提出了层级潜在点扩散模型(Hierarchical Latent Point Diffusion Model, LION),用于三维形状生成。LION采用变分自编码器(Variational Autoencoder, VAE)架构,其核心是一个分层的潜在空间结构,该结构同时包含全局形状潜在表示与点结构化的潜在空间。在生成阶段,我们在这两个层级潜在空间中分别训练了两个分层的DDM。与直接在点云上操作的DDM相比,该分层VAE架构显著提升了模型性能;同时,点结构化的潜在表示依然非常适合基于扩散模型的建模方式。实验结果表明,LION在多个ShapeNet基准测试中达到了当前最优的生成性能。此外,我们的VAE框架使得LION能够轻松拓展至多种相关任务:LION在多模态形状去噪和体素条件生成方面表现卓越,并可进一步适配为文本驱动或图像驱动的三维生成模型。我们还展示了形状的自动编码与潜在空间中的形状插值能力,并结合现代表面重建技术对LION进行增强,从而生成高质量的光滑三维网格。我们期望LION凭借其卓越的生成质量、高度的灵活性以及出色的表面重建能力,成为数字艺术家在三维形状创作中强有力的工具。项目主页与代码地址:https://nv-tlabs.github.io/LION。
代码仓库
nv-tlabs/LION
官方
pytorch
GitHub 中提及
MS-Mind/MS-Code-04
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| point-cloud-generation-on-shapenet | LION | 1-NNA-CD: 51.85 1-NNA-EMD: 48.95 |
| point-cloud-generation-on-shapenet-airplane | LION | 1-NNA-CD: 53.47 1-NNA-EMD: 53.84 |
| point-cloud-generation-on-shapenet-car | LION | 1-NNA-CD: 54.81 1-NNA-EMD: 50.53 |
| point-cloud-generation-on-shapenet-chair | LION | 1-NNA-CD: 52.07 1-NNA-EMD: 48.67 |