3 个月前

GRIT:基于双视觉特征的更快更优图像描述Transformer

GRIT:基于双视觉特征的更快更优图像描述Transformer

摘要

当前最先进的图像描述生成方法普遍采用基于区域的特征,因其能够提供对图像内容至关重要的物体级信息,通常通过目标检测器(如Faster R-CNN)提取。然而,这类方法存在若干问题,包括缺乏上下文信息、检测结果不准确的风险以及较高的计算开销。前两个问题可通过引入基于网格的特征加以缓解。然而,如何有效提取并融合这两种视觉特征,目前仍缺乏系统性的解决方案。本文提出一种纯Transformer架构的神经网络模型,命名为GRIT(Grid- and Region-based Image Captioning Transformer),该模型能够高效融合两种视觉特征,从而生成更优的图像描述。GRIT摒弃了以往方法中基于CNN的目标检测器,改用DETR架构,显著提升了计算效率。此外,其全Transformer的统一设计使得整个模型可实现端到端训练。这一创新架构与双模视觉特征的深度融合,带来了显著的性能提升。在多个图像描述生成基准测试中,GRIT在推理准确率和速度方面均优于现有方法。

代码仓库

davidnvq/grit
官方
pytorch
GitHub 中提及
pacman-ctm/thesis_code
GitHub 中提及

基准测试

基准方法指标
image-captioning-on-coco-captionsGRIT (No VL pretraining - base)
BLEU-1: 84.2
BLEU-4: 42.4
CIDER: 144.2
METEOR: 30.6
ROUGE-L: 60.7
SPICE: 24.3
image-captioning-on-nocaps-in-domainGRIT (zero-shot, no VL pretraining, no CBS)
CIDEr: 105.9
SPICE: 13.6
image-captioning-on-nocaps-out-of-domainGRIT (zero-shot, no CBS, no VL pretraining, single model)
CIDEr: 72.6
SPICE: 11.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GRIT:基于双视觉特征的更快更优图像描述Transformer | 论文 | HyperAI超神经