3 个月前

AutoFocusFormer:基于非网格的图像分割

AutoFocusFormer:基于非网格的图像分割

摘要

现实世界图像通常具有高度不平衡的内容密度:某些区域非常均匀(例如大面积的蓝天),而另一些区域则散布着大量小型物体。然而,卷积神经网络中常用的逐级网格下采样策略对所有区域一视同仁,导致小型物体在下采样后仅在极少数空间位置上被保留,从而在分割等任务中表现不佳。直观上,若在下采样过程中保留更多代表小型物体的像素,有助于更好地维持关键信息。为此,我们提出 AutoFocusFormer(AFF),一种基于局部注意力机制的Transformer图像识别主干网络,通过学习保留对任务最为重要的像素,实现自适应下采样。由于自适应下采样生成的像素在图像平面上呈非规则分布,我们摒弃了传统的网格结构,转而设计了一种新型基于点的局部注意力模块。该模块由一个平衡聚类模块和一个可学习的邻域合并模块协同支持,能够为当前最先进的分割头提供点式表示。实验结果表明,我们的 AutoFocusFormer(AFF)在与基线模型规模相近的情况下,性能显著优于现有方法。

代码仓库

apple/ml-autofocusformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
instance-segmentation-on-cityscapes-valAFF-Base (single-scale, point-based Mask2Former)
AP50: 74.2
mask AP: 46.2
instance-segmentation-on-cityscapes-valAFF-Small (single-scale, point-based Mask2Former)
AP50: 72.8
mask AP: 44.0
panoptic-segmentation-on-cityscapes-valAFF-Base (single-scale, point-based Mask2Former)
AP: 46.2
PQ: 67.7
PQst: 71.5
PQth: 62.5
mIoU: 83.0
panoptic-segmentation-on-cityscapes-valAFF-Small (single-scale, point-based Mask2Former)
AP: 44.2
PQ: 66.9
PQst: 70.8
PQth: 61.5
mIoU: 82.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AutoFocusFormer:基于非网格的图像分割 | 论文 | HyperAI超神经