
摘要
当前最先进的图像描述生成方法普遍采用基于区域的特征,因其能够提供对图像内容至关重要的物体级信息,通常通过目标检测器(如Faster R-CNN)提取。然而,这类方法存在若干问题,包括缺乏上下文信息、检测结果不准确的风险以及较高的计算开销。前两个问题可通过引入基于网格的特征加以缓解。然而,如何有效提取并融合这两种视觉特征,目前仍缺乏系统性的解决方案。本文提出一种纯Transformer架构的神经网络模型,命名为GRIT(Grid- and Region-based Image Captioning Transformer),该模型能够高效融合两种视觉特征,从而生成更优的图像描述。GRIT摒弃了以往方法中基于CNN的目标检测器,改用DETR架构,显著提升了计算效率。此外,其全Transformer的统一设计使得整个模型可实现端到端训练。这一创新架构与双模视觉特征的深度融合,带来了显著的性能提升。在多个图像描述生成基准测试中,GRIT在推理准确率和速度方面均优于现有方法。
代码仓库
davidnvq/grit
官方
pytorch
GitHub 中提及
pacman-ctm/thesis_code
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-coco-captions | GRIT (No VL pretraining - base) | BLEU-1: 84.2 BLEU-4: 42.4 CIDER: 144.2 METEOR: 30.6 ROUGE-L: 60.7 SPICE: 24.3 |
| image-captioning-on-nocaps-in-domain | GRIT (zero-shot, no VL pretraining, no CBS) | CIDEr: 105.9 SPICE: 13.6 |
| image-captioning-on-nocaps-out-of-domain | GRIT (zero-shot, no CBS, no VL pretraining, single model) | CIDEr: 72.6 SPICE: 11.1 |