3 个月前

GRiT:一种用于目标理解的生成式区域到文本Transformer

GRiT:一种用于目标理解的生成式区域到文本Transformer

摘要

本文提出了一种用于物体理解的生成式区域到文本变换模型——GRiT(Generative RegIon-to-Text transformer)。GRiT的核心思想是将物体理解建模为“区域-文本”对的形式,其中区域用于定位物体,文本用于描述物体。例如,在目标检测任务中,文本表示类别名称;而在密集描述(dense captioning)任务中,文本则为描述性语句。具体而言,GRiT由一个视觉编码器用于提取图像特征,一个前景物体提取器用于定位物体,以及一个文本解码器用于生成开放集的物体描述。得益于统一的模型架构,GRiT不仅能够理解简单的名词性描述,还可生成包含物体属性或动作等丰富语义的描述性句子。实验结果表明,GRiT在目标检测任务上于COCO 2017 test-dev数据集上取得了60.4的AP(Average Precision)性能,在密集描述任务上于Visual Genome数据集上达到15.5的mAP(mean Average Precision)。相关代码已开源,地址为:https://github.com/JialianW/GRiT。

代码仓库

JialianW/GRiT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dense-captioning-on-visual-genomeGRiT (ViT-B)
mAP: 15.5
object-detection-on-cocoGRiT (ViT-H, single-scale testing)
box mAP: 60.4
object-detection-on-coco-oGRiT (ViT-H)
Average mAP: 42.9
Effective Robustness: 15.72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GRiT:一种用于目标理解的生成式区域到文本Transformer | 论文 | HyperAI超神经