3 个月前

MaX-DeepLab:基于掩码Transformer的端到端全景分割

MaX-DeepLab:基于掩码Transformer的端到端全景分割

摘要

我们提出 MaX-DeepLab,这是首个面向全景分割(panoptic segmentation)的端到端模型。该方法简化了当前依赖大量代理子任务和人工设计组件的复杂流程,例如边界框检测、非极大值抑制(non-maximum suppression)、可数物(thing)与不可数物(stuff)合并等。尽管这些子任务由领域专家分别处理,但仍难以全面解决全景分割的最终目标。相比之下,MaX-DeepLab 通过一个掩码变换器(mask transformer)直接预测带有类别标签的掩码,并采用基于二分匹配(bipartite matching)的全景质量(panoptic quality)损失进行训练。该掩码变换器采用双路径架构,在传统的卷积神经网络(CNN)路径之外引入全局记忆路径,实现与任意 CNN 层的直接信息交互。实验结果表明,在具有挑战性的 COCO 数据集上,MaX-DeepLab 在无边界框(box-free)设置下实现了 7.1% 的 PQ(Panoptic Quality)显著提升,首次弥合了基于边界框与无边界框方法之间的性能差距。此外,MaX-DeepLab 的小型变体在参数量和计算量(M-Adds)相近的情况下,相比 DETR 提升了 3.0% 的 PQ。更重要的是,该模型在不使用测试时增强(test-time augmentation)的情况下,于 COCO test-dev 集上取得了 51.3% 的 PQ,达到新的最先进水平。代码已开源,地址为:https://github.com/google-research/deeplab2。

代码仓库

conradry/max-deeplab
pytorch
GitHub 中提及
bytedance/kmax-deeplab
pytorch
GitHub 中提及

基准测试

基准方法指标
panoptic-segmentation-on-coco-minivalMaX-DeepLab-L (single-scale)
PQ: 51.1
PQst: 42.2
PQth: 57.0
panoptic-segmentation-on-coco-test-devMaX-DeepLab-L (single-scale)
PQ: 51.3
PQst: 42.4
PQth: 57.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MaX-DeepLab:基于掩码Transformer的端到端全景分割 | 论文 | HyperAI超神经