
摘要
我们提出GANformer2模型,这是一种用于生成建模任务的迭代式面向对象Transformer架构。该网络引入了强而明确的结构先验,以体现视觉场景的组合特性,并通过一个逐步生成的过程合成图像。模型运行分为两个阶段:首先是一个快速且轻量级的规划阶段,在此阶段中我们草拟出高层次的场景布局;随后进入基于注意力机制的执行阶段,对布局进行逐步优化与细化,最终生成细节丰富、层次分明的图像。与传统生成对抗网络(GAN)架构中平坦且单一的潜在空间不同,GANformer2采用透明化设计,显著提升了模型的效率、可控性与可解释性。我们在多种数据集上对GANformer2进行了细致评估,涵盖多物体CLEVR场景以及具有挑战性的COCO图像数据集,结果表明该模型在视觉质量、图像多样性与一致性方面均达到了当前最优水平。进一步的实验揭示了模型在表征解耦方面的优异能力,深入展示了其逐步生成的过程:从最初的粗略草图,到逐步构建包含物体深度与依赖关系的详细布局,最终生成高分辨率、生动且复杂的现实世界场景图像。该过程清晰地体现了模型在生成过程中的逻辑性与结构性。模型实现详见:https://github.com/dorarad/gansformer。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-ffhq-256-x-256 | GANFormer2 | FID: 7.77 |