3 个月前

预训练模型在视觉叙事中的过渡性适应

预训练模型在视觉叙事中的过渡性适应

摘要

以往用于视觉到语言生成任务的模型通常在各自领域中分别预训练视觉编码器与语言生成器,随后在目标任务上联合微调。然而,这种直接迁移的方法可能面临视觉信息的精确性与语言流畅性之间的不协调问题,因为二者往往基于独立的视觉与文本大规模语料库分别训练,缺乏共同的语义对齐基础。在本研究中,我们提出,为应对诸如视觉叙事等具有挑战性的下游任务,应在预训练与微调之间引入一个过渡性适配阶段,以协调视觉编码器与语言模型之间的能力。为此,我们提出一种名为“预训练模型的过渡适配”(Transitional Adaptation of Pretrained Model, TAPM)的新方法,该方法通过仅基于视觉输入的简化对齐任务,实现多模态模块间的相互适配,无需依赖文本标签。大量实验表明,该适配步骤显著提升了多种语言模型在序列化视频与图像字幕生成任务中的性能。在LSMDC 2019多句描述任务和VIST图像叙事任务中,我们的方法在语言评估指标与人工评价方面均取得了新的最先进水平。实验结果进一步揭示,这种字幕质量的提升并不依赖于特定语言模型的选择,具有良好的通用性。

基准测试

基准方法指标
visual-storytelling-on-vistTAPM (no V&L)
CIDEr: 8.3
METEOR: 34.1
ROUGE-L: 30.2
visual-storytelling-on-vistTAPM
CIDEr: 13.8
METEOR: 37.2
ROUGE-L: 33.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练模型在视觉叙事中的过渡性适应 | 论文 | HyperAI超神经