3 个月前

MemCap:用于图像描述的记忆化风格知识

MemCap:用于图像描述的记忆化风格知识

摘要

为图像生成具有特定风格的描述文本是一项具有挑战性的任务,因为它不仅要求准确描述图像内容,还需恰当地表达目标语言风格。本文提出了一种名为MemCap的新颖风格化图像描述方法,该方法通过记忆机制显式地编码语言风格知识。与现有方法高度依赖语言模型来捕捉风格特征不同,我们的方法通过记忆从训练语料中学习到的风格化元素来实现风格建模。具体而言,我们设计了一个记忆模块,其中包含一组嵌入向量,用于编码训练语料中与风格相关的短语。为了提取这些风格相关短语,我们开发了一种句子分解算法,能够将风格化句子拆分为反映语言风格的风格部分和包含视觉内容的内容部分。在生成描述时,MemCap首先通过注意力机制从记忆模块中提取与内容相关的风格知识,然后将这些知识融入语言模型中进行生成。在两个风格化图像描述数据集(SentiCap 和 FlickrStyle10K)上的大量实验结果表明,所提方法具有显著的有效性。

基准测试

基准方法指标
image-captioning-on-flickrstyle10kMemCap
BLEU-1 (Romantic): 19.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MemCap:用于图像描述的记忆化风格知识 | 论文 | HyperAI超神经