Xueyan ZouZi-Yi DouJianwei YangZhe GanLinjie LiChunyuan LiXiyang DaiHarkirat BehlJianfeng WangLu YuanNanyun PengLijuan WangYong Jae LeeJianfeng Gao

摘要
我们提出X-Decoder,一种通用的解码模型,能够无缝地预测像素级分割结果与语言标记(token)。X-Decoder接受两种类型的查询输入:(i) 通用的非语义查询,以及 (ii) 由文本输入所激发的语义查询,从而在统一的语义空间中解码出不同粒度的像素级与标记级输出。得益于这一创新性设计,X-Decoder成为首个提供统一范式以支持所有类型图像分割及多种视觉-语言(Vision-Language, VL)任务的模型。此外,该设计实现了跨不同粒度任务间的无缝交互,并通过学习一个共通且丰富的像素级视觉-语义理解空间,带来任务间的相互增益,且无需任何伪标签(pseudo-labeling)。在有限数量的分割数据与数百万图像-文本对上进行预训练后,X-Decoder展现出强大的泛化能力,可在零样本(zero-shot)与微调(fine-tuning)两种设置下广泛适配各类下游任务。其性能表现尤为突出:(1) 在八个数据集上实现了开放词汇分割(open-vocabulary segmentation)与指代表达分割(referring segmentation)的当前最优结果;(2) 在分割与视觉-语言任务上,微调性能优于或媲美其他通用模型与专用模型;(3) 具备高效的微调灵活性以及支持新型任务组合的能力,例如指代表达描述生成(referring captioning)与图像编辑(image editing)。代码、演示、视频及可视化结果详见:https://x-decoder-vl.github.io。
代码仓库
microsoft/X-Decoder
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-ade20k-val | X-Decoder (L) | AP: 35.8 |
| instance-segmentation-on-ade20k-val | X-Decoder (Davit-d5, Deform, single-scale, 1280x1280) | AP: 38.7 APL: 59.6 APM: 43.3 APS: 18.9 |
| panoptic-segmentation-on-ade20k-val | X-Decoder (Davit-d5, Deform, single-scale, 1280x1280) | AP: 38.7 PQ: 52.4 mIoU: 59.1 |
| panoptic-segmentation-on-ade20k-val | X-Decoder (L) | AP: 35.8 PQ: 49.6 mIoU: 58.1 |
| referring-expression-segmentation-on-refcocog | X-Decoder (Davit-d5) | Overall IoU: 64.6 |
| zero-shot-segmentation-on-segmentation-in-the | SGinW_Team (X-Decoder-L) | Mean AP: 32.2 |
| zero-shot-segmentation-on-segmentation-in-the | SGinW_Team (X-Decoder-T) | Mean AP: 22.6 |
| zero-shot-segmentation-on-segmentation-in-the | SGinW_Team (X-Decoder-B) | Mean AP: 27.7 |
| zero-shot-segmentation-on-segmentation-in-the | SGinW_Team (X-Decoder-L-IN21K) | Mean AP: 26.6 |