3 个月前

ImageBART:用于自回归图像生成的双向上下文与多项式扩散

ImageBART:用于自回归图像生成的双向上下文与多项式扩散

摘要

自回归模型及其对数据似然的顺序因子分解近年来在图像表征与生成方面展现出巨大潜力。然而,这类模型在引入图像上下文时仅以线性的一维顺序进行,即仅关注已生成图像块的上方或左侧区域。这种单向、顺序性的注意力机制不仅违背了图像的自然结构——导致大量场景信息直到生成接近完成时才被纳入考虑,而且仅在单一尺度上处理整个图像,从而忽略了从整体场景到全局语义的高层次上下文信息。为解决上述问题,我们提出了一种从粗到细的上下文层次结构,将自回归建模与多项式扩散过程相结合:与多阶段扩散过程逐步去除信息以实现图像粗化不同,我们训练一个(较短的)马尔可夫链来逆向该过程。在每一阶段,所得的自回归图像模型ImageBART以从粗到细的方式逐步融合前序阶段的上下文信息。实验表明,相较于传统自回归模型,该方法在图像修改能力上显著提升,同时仍能实现高保真度的图像生成,这一切均得益于在压缩潜在空间中的高效训练。具体而言,我们的方法能够灵活地处理用户任意提供的掩码,实现局部图像编辑。因此,与纯自回归模型相比,该方法不仅可解决自由形式的图像修复(inpainting)问题,还可支持条件模型下的局部、文本引导的图像修改,且无需针对特定掩码进行额外训练。

代码仓库

compvis/imagebart
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-conceptualImage-BART
FID: 22.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ImageBART:用于自回归图像生成的双向上下文与多项式扩散 | 论文 | HyperAI超神经