4 个月前

MIGC:用于文本到图像合成的多实例生成控制器

MIGC:用于文本到图像合成的多实例生成控制器

摘要

我们介绍了一项多实例生成(Multi-Instance Generation, MIG)任务,该任务在同一张图像中同时生成多个具有多样控制的实例。给定一组预定义的坐标及其相应的描述,任务的目标是确保生成的实例精确位于指定位置,并且所有实例的属性都符合其对应的描述。这扩展了当前单实例生成研究的范围,将其提升到一个更加通用和实用的维度。受分而治之思想的启发,我们引入了一种创新方法——多实例生成控制器(Multi-Instance Generation Controller, MIGC),以应对MIG任务中的挑战。首先,我们将MIG任务分解为若干子任务,每个子任务涉及单个实例的着色。为了确保每个实例的精确着色,我们引入了一个实例增强注意力机制。最后,我们将所有着色后的实例聚合起来,为在稳定扩散(Stable Diffusion, SD)中准确生成多个实例提供必要的信息。为了评估生成模型在MIG任务上的表现,我们提供了COCO-MIG基准数据集及相应的评估流程。我们在提出的COCO-MIG基准数据集上进行了广泛的实验,并在各种常用的基准数据集上也进行了测试。评估结果显示,我们的模型在数量、位置、属性和交互方面表现出卓越的控制能力。代码和演示将在https://migcproject.github.io/ 上发布。

代码仓库

limuloo/migc
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conditional-text-to-image-synthesis-on-coco-1MIGC
instance success rate: 0.66
mIoU: 0.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MIGC:用于文本到图像合成的多实例生成控制器 | 论文 | HyperAI超神经