
摘要
在图像描述生成任务中,能够描述训练数据中未见过的新物体,是一项极具价值但极具挑战性的能力,这一能力正是“新物体图像描述挑战”(Novel Object Captioning Challenge, NoCaps)所评估的核心目标。在该挑战中,模型训练仅允许使用COCO Captions数据集,不得引入任何额外的图像-描述对训练数据。因此,传统的视觉-语言预训练(Vision-Language Pre-training, VLP)方法无法直接应用。本文提出了一种名为视觉词汇预训练(Visual Vocabulary Pretraining, VIVO)的新方法,该方法在缺乏图像描述标注的情况下实现预训练。通过打破传统VLP方法对成对图像-描述数据的依赖,VIVO能够利用大量图像-标签配对数据来学习视觉词汇。具体而言,VIVO通过预训练一个多层Transformer模型,使模型能够将图像级别的标签与对应的图像区域特征进行对齐。为应对图像标签无序性的特点,VIVO引入了一种基于匈牙利匹配(Hungarian matching)的损失函数,并结合掩码标签预测机制,实现有效的预训练。我们通过在预训练模型上进行微调,验证了VIVO方法在图像描述生成任务上的有效性。此外,我们还对模型所隐含的视觉-文本对齐能力进行了深入分析。实验结果表明,该模型不仅能够生成流畅且准确描述新物体的图像描述,还能有效定位这些新物体在图像中的空间位置。本研究提出的单一模型在NoCaps基准上取得了新的最先进性能,其CIDEr得分甚至超过了人类水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-nocaps-entire | Microsoft Cognitive Services team | B1: 85.62 B2: 71.36 B3: 53.62 B4: 34.65 CIDEr: 114.25 METEOR: 31.27 ROUGE-L: 61.2 SPICE: 14.85 |
| image-captioning-on-nocaps-in-domain | Microsoft Cognitive Services team | B1: 86.33 B2: 72.83 B3: 55.94 B4: 37.97 CIDEr: 112.82 METEOR: 32.7 ROUGE-L: 62.48 SPICE: 15.22 |
| image-captioning-on-nocaps-near-domain | Microsoft Cognitive Services team | B1: 86.48 B2: 72.6 B3: 55.26 B4: 36.31 CIDEr: 115.54 METEOR: 31.8 ROUGE-L: 61.9 SPICE: 15.06 |
| image-captioning-on-nocaps-out-of-domain | Microsoft Cognitive Services team | B1: 81.73 B2: 65.48 B3: 45.58 B4: 25.78 CIDEr: 110.14 METEOR: 28.17 ROUGE-L: 57.57 SPICE: 13.74 |
| image-captioning-on-nocaps-xd-entire | Microsoft Cognitive Services team | B1: 82.27 B2: 66.04 B3: 47.48 B4: 28.95 CIDEr: 100.12 METEOR: 29.47 ROUGE-L: 58.26 SPICE: 14.04 |
| image-captioning-on-nocaps-xd-in-domain | Microsoft Cognitive Services team | B1: 82.94 B2: 67.56 B3: 49.66 B4: 32.07 CIDEr: 100.62 METEOR: 30.62 ROUGE-L: 59.43 SPICE: 14.7 |
| image-captioning-on-nocaps-xd-near-domain | Microsoft Cognitive Services team | B1: 82.88 B2: 67.01 B3: 48.73 B4: 30.21 CIDEr: 101.2 METEOR: 30.0 ROUGE-L: 58.76 SPICE: 14.27 |
| image-captioning-on-nocaps-xd-out-of-domain | Microsoft Cognitive Services team | B1: 79.44 B2: 61.15 B3: 41.03 B4: 21.79 CIDEr: 95.5 METEOR: 26.56 ROUGE-L: 55.49 SPICE: 12.66 |