
摘要
单阶段实例分割方法由于其速度和简洁性最近受到了广泛关注,但在准确性方面仍落后于两阶段方法。我们提出了一种快速的单阶段实例分割方法,称为SipMask,该方法通过将检测到的边界框内的实例掩码预测划分为不同的子区域来保留实例特定的空间信息。我们的主要贡献是一种新颖的轻量级空间保留(SP)模块,该模块为边界框内的每个子区域生成一组独立的空间系数,从而提高了掩码预测的准确性。此外,它还能够精确地划分相邻的空间实例。为了更好地关联掩码预测与目标检测,我们引入了掩码对齐加权损失和特征对齐方案。在COCO测试开发集上,我们的SipMask优于现有的单阶段方法。与最先进的单阶段TensorMask相比,SipMask在掩码AP上获得了1.0%的绝对提升,同时提供了四倍的速度提升。在实时性能方面,在类似设置下,SipMask在掩码AP上比YOLACT高出3.0%,而在Titan Xp上的运行速度相当。我们还在YouTube-VIS数据集上评估了SipMask用于实时视频实例分割的效果,取得了令人鼓舞的结果。源代码可在https://github.com/JialeCao001/SipMask 获取。
代码仓库
JialeCao001/SipMask
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | SipMask (ResNet-101, single-scale test) | AP50: 60.2 AP75: 40.8 APL: 54.3 APM: 40.8 APS: 17.8 mask AP: 38.1 |
| real-time-instance-segmentation-on-mscoco | SipMask++ (ResNet-101, single-scale test) | AP50: 55.6 AP75: 37.6 APL: 56.8 APM: 38.3 APS: 11.2 Frame (fps): 27.0 (Titan Xp) mask AP: 35.4 |
| real-time-instance-segmentation-on-mscoco | SipMask (ResNet-50, single-scale test) | AP50: 51.9 AP75: 32.3 APL: 49.8 APM: 33.6 APS: 9.2 Frame (fps): 41.7 (Titan Xp) mask AP: 31.2 |
| real-time-instance-segmentation-on-mscoco | SipMask (ResNet-101, single-scale test) | AP50: 53.4 AP75: 34.3 APL: 54.0 APM: 35.6 APS: 9.3 Frame (fps): 31.3 (Titan Xp) mask AP: 32.8 |
| video-instance-segmentation-on-youtube-vis-1 | SipMask (ResNet-50, single-scale test) | AP50: 53 AP75: 33.3 AR1: 33.5 AR10: 38.9 mask AP: 32.5 |
| video-instance-segmentation-on-youtube-vis-1 | SipMask (ResNet-50, ms-train, single-scale test) | AP50: 54.1 AP75: 35.8 AR1: 35.4 AR10: 40.1 mask AP: 33.7 |