4 个月前

基于上下文记忆的在线文本增强故事可视化

基于上下文记忆的在线文本增强故事可视化

摘要

故事可视化(SV)是一项具有挑战性的文本到图像生成任务,不仅需要从文本描述中渲染视觉细节,还要在多个句子之间编码长期上下文。尽管先前的研究主要集中在为每个句子生成语义相关的图像,但在给定段落中编码广泛分布的上下文以生成具有上下文说服力的图像(例如,正确的角色或适当的场景背景)仍然是一个难题。为此,我们提出了一种新颖的记忆架构,该架构基于双向Transformer框架,并结合在线文本增强技术,在训练过程中生成多个伪描述作为补充监督,以提高对推理时语言变化的泛化能力。在两个流行的SV基准数据集——Pororo-SV和Flintstones-SV上进行的大量实验表明,所提出的方法在FID、角色F1、帧准确率、BLEU-2/3和R-精度等多种指标上显著优于现有方法,且计算复杂度相似或更低。

代码仓库

yonseivnl/cmota
官方
pytorch

基准测试

基准方法指标
story-visualization-on-pororoCMOTA
FID: 52.13

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于上下文记忆的在线文本增强故事可视化 | 论文 | HyperAI超神经