4 个月前

告知、绘制与重复:基于持续语言指令的图像生成与修改

告知、绘制与重复:基于持续语言指令的图像生成与修改

摘要

条件文本到图像生成是一个活跃的研究领域,具有广泛的应用前景。现有的研究主要集中在利用可用的条件信息一次性生成单个图像。一种超越一次性生成的实际扩展是构建一个系统,该系统能够根据持续的语言输入或反馈迭代地生成图像。这比一次性生成任务要困难得多,因为这样的系统必须理解其生成图像的内容,不仅包括反馈历史和当前反馈,还包括反馈历史中概念之间的相互作用。在本工作中,我们提出了一种递归图像生成模型,该模型同时考虑了当前步骤之前的所有生成输出以及所有过去的生成指令。我们展示了我们的模型能够生成背景、添加新对象并对现有对象进行简单的变换。我们认为我们的方法是朝着交互式生成迈出的重要一步。代码和数据可从以下网址获取:https://www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/ 。

代码仓库

Maluuba/GeNeVA
pytorch
GitHub 中提及
Maluuba/GeNeVA_datasets
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-geneva-codrawGeNeVA-GAN
F1-score: 58.83
rsim: 35.41
text-to-image-generation-on-geneva-i-clevrGeNeVA-GAN
F1-score: 88.39
rsim: 74.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
告知、绘制与重复:基于持续语言指令的图像生成与修改 | 论文 | HyperAI超神经