3 个月前

Mask DINO:面向统一的基于Transformer的目标检测与分割框架

Mask DINO:面向统一的基于Transformer的目标检测与分割框架

摘要

本文提出了一种统一的目标检测与分割框架——Mask DINO。Mask DINO在DINO(改进去噪锚框的DETR)的基础上,新增了一个掩码预测分支,能够支持所有图像分割任务(包括实例分割、全景分割和语义分割)。该方法利用DINO中的查询嵌入(query embeddings),通过与高分辨率像素嵌入图进行点积操作,预测一组二值掩码。为实现分割任务,Mask DINO在共享架构与联合训练流程的基础上,对DINO中若干关键组件进行了扩展。该框架结构简洁、高效且具备良好的可扩展性,能够充分受益于大规模联合检测与分割数据集的训练。实验结果表明,Mask DINO在ResNet-50主干网络以及采用SwinL主干的预训练模型上,均显著超越了现有各类专用分割方法。尤为突出的是,在参数量不超过十亿的模型中,Mask DINO在实例分割(COCO数据集上达到54.5 AP)、全景分割(COCO数据集上达到59.4 PQ)和语义分割(ADE20K数据集上达到60.8 mIoU)三项任务上均取得了当前最优性能。代码已开源,地址为:\url{https://github.com/IDEACVR/MaskDINO}。

代码仓库

idea-research/dab-detr
pytorch
GitHub 中提及
isbrycee/gem
pytorch
GitHub 中提及
IDEA-opensource/DAB-DETR
pytorch
GitHub 中提及
IDEACVR/DINO
pytorch
GitHub 中提及
idea-research/dn-detr
pytorch
GitHub 中提及
idea-research/maskdino
官方
pytorch
GitHub 中提及
isbrycee/gem-glass-segmentor
pytorch
GitHub 中提及
IDEA-opensource/DN-DETR
pytorch
GitHub 中提及

基准测试

基准方法指标
instance-segmentation-on-cocoMasK DINO (SwinL, multi-scale)
mask AP: 54.7
instance-segmentation-on-cocoMask DINO (SwinL, single -scale)
mask AP: 52.8
instance-segmentation-on-coco-minivalMask DINO (SwinL)
mask AP: 52.6
instance-segmentation-on-coco-minivalMasK DINO (SwinL, multi-scale)
mask AP: 54.5
panoptic-segmentation-on-coco-minivalMasK DINO (SwinL,single-scale)
AP: 50.9
PQ: 59.4
panoptic-segmentation-on-coco-test-devMask DINO (single scale)
PQ: 59.5
PQst: -
PQth: -
semantic-segmentation-on-ade20kMasK DINO (SwinL, multi-scale)
Params (M): 223
Validation mIoU: 60.8
semantic-segmentation-on-ade20k-valMaskDINO-SwinL
mIoU: 60.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供