3 个月前

VIVO:用于新物体描述生成的视觉词汇预训练

VIVO:用于新物体描述生成的视觉词汇预训练

摘要

在图像描述生成任务中,能够描述训练数据中未见过的新物体,是一项极具价值但极具挑战性的能力,这一能力正是“新物体图像描述挑战”(Novel Object Captioning Challenge, NoCaps)所评估的核心目标。在该挑战中,模型训练仅允许使用COCO Captions数据集,不得引入任何额外的图像-描述对训练数据。因此,传统的视觉-语言预训练(Vision-Language Pre-training, VLP)方法无法直接应用。本文提出了一种名为视觉词汇预训练(Visual Vocabulary Pretraining, VIVO)的新方法,该方法在缺乏图像描述标注的情况下实现预训练。通过打破传统VLP方法对成对图像-描述数据的依赖,VIVO能够利用大量图像-标签配对数据来学习视觉词汇。具体而言,VIVO通过预训练一个多层Transformer模型,使模型能够将图像级别的标签与对应的图像区域特征进行对齐。为应对图像标签无序性的特点,VIVO引入了一种基于匈牙利匹配(Hungarian matching)的损失函数,并结合掩码标签预测机制,实现有效的预训练。我们通过在预训练模型上进行微调,验证了VIVO方法在图像描述生成任务上的有效性。此外,我们还对模型所隐含的视觉-文本对齐能力进行了深入分析。实验结果表明,该模型不仅能够生成流畅且准确描述新物体的图像描述,还能有效定位这些新物体在图像中的空间位置。本研究提出的单一模型在NoCaps基准上取得了新的最先进性能,其CIDEr得分甚至超过了人类水平。

基准测试

基准方法指标
image-captioning-on-nocaps-entireMicrosoft Cognitive Services team
B1: 85.62
B2: 71.36
B3: 53.62
B4: 34.65
CIDEr: 114.25
METEOR: 31.27
ROUGE-L: 61.2
SPICE: 14.85
image-captioning-on-nocaps-in-domainMicrosoft Cognitive Services team
B1: 86.33
B2: 72.83
B3: 55.94
B4: 37.97
CIDEr: 112.82
METEOR: 32.7
ROUGE-L: 62.48
SPICE: 15.22
image-captioning-on-nocaps-near-domainMicrosoft Cognitive Services team
B1: 86.48
B2: 72.6
B3: 55.26
B4: 36.31
CIDEr: 115.54
METEOR: 31.8
ROUGE-L: 61.9
SPICE: 15.06
image-captioning-on-nocaps-out-of-domainMicrosoft Cognitive Services team
B1: 81.73
B2: 65.48
B3: 45.58
B4: 25.78
CIDEr: 110.14
METEOR: 28.17
ROUGE-L: 57.57
SPICE: 13.74
image-captioning-on-nocaps-xd-entireMicrosoft Cognitive Services team
B1: 82.27
B2: 66.04
B3: 47.48
B4: 28.95
CIDEr: 100.12
METEOR: 29.47
ROUGE-L: 58.26
SPICE: 14.04
image-captioning-on-nocaps-xd-in-domainMicrosoft Cognitive Services team
B1: 82.94
B2: 67.56
B3: 49.66
B4: 32.07
CIDEr: 100.62
METEOR: 30.62
ROUGE-L: 59.43
SPICE: 14.7
image-captioning-on-nocaps-xd-near-domainMicrosoft Cognitive Services team
B1: 82.88
B2: 67.01
B3: 48.73
B4: 30.21
CIDEr: 101.2
METEOR: 30.0
ROUGE-L: 58.76
SPICE: 14.27
image-captioning-on-nocaps-xd-out-of-domainMicrosoft Cognitive Services team
B1: 79.44
B2: 61.15
B3: 41.03
B4: 21.79
CIDEr: 95.5
METEOR: 26.56
ROUGE-L: 55.49
SPICE: 12.66

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VIVO:用于新物体描述生成的视觉词汇预训练 | 论文 | HyperAI超神经