6 个月前

摘要

在图像描述生成任务中，能够描述训练数据中未见过的新物体，是一项极具价值但极具挑战性的能力，这一能力正是“新物体图像描述挑战”（Novel Object Captioning Challenge, NoCaps）所评估的核心目标。在该挑战中，模型训练仅允许使用COCO Captions数据集，不得引入任何额外的图像-描述对训练数据。因此，传统的视觉-语言预训练（Vision-Language Pre-training, VLP）方法无法直接应用。本文提出了一种名为视觉词汇预训练（Visual Vocabulary Pretraining, VIVO）的新方法，该方法在缺乏图像描述标注的情况下实现预训练。通过打破传统VLP方法对成对图像-描述数据的依赖，VIVO能够利用大量图像-标签配对数据来学习视觉词汇。具体而言，VIVO通过预训练一个多层Transformer模型，使模型能够将图像级别的标签与对应的图像区域特征进行对齐。为应对图像标签无序性的特点，VIVO引入了一种基于匈牙利匹配（Hungarian matching）的损失函数，并结合掩码标签预测机制，实现有效的预训练。我们通过在预训练模型上进行微调，验证了VIVO方法在图像描述生成任务上的有效性。此外，我们还对模型所隐含的视觉-文本对齐能力进行了深入分析。实验结果表明，该模型不仅能够生成流畅且准确描述新物体的图像描述，还能有效定位这些新物体在图像中的空间位置。本研究提出的单一模型在NoCaps基准上取得了新的最先进性能，其CIDEr得分甚至超过了人类水平。

源 PDF