
摘要
本文中,我们提出了一种可微分的掩模匹配网络(DMM-Net),用于解决提供初始对象掩模的视频对象分割问题。基于Mask R-CNN主干网络,我们每帧提取掩模提议,并将某一时间步长内对象模板与提议之间的匹配问题表述为一个线性指派问题,其中成本矩阵由卷积神经网络预测。我们通过展开一个投影梯度下降算法来设计了一个可微分的匹配层,该算法中的投影利用了Dykstra算法。我们证明,在温和条件下,匹配过程能够保证收敛到最优解。在实际应用中,它在推理阶段的表现与匈牙利算法相似。同时,我们可以通过反向传播来学习成本矩阵。匹配完成后,利用一个细化头来提高匹配掩模的质量。我们的DMM-Net在最大的视频对象分割数据集YouTube-VOS上取得了具有竞争力的结果。在DAVIS 2017数据集上,DMM-Net在不进行在线学习的情况下实现了最佳性能。未经任何微调,DMM-Net在SegTrack v2数据集上的表现也与最先进的方法相当。最后,我们的匹配层实现非常简单;我们在补充材料中附上了PyTorch代码(不到50行)。我们的代码已发布在https://github.com/ZENGXH/DMM_Net。
代码仓库
ZENGXH/DMM_Net
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | DMM-Net | D17 val (F): 73.3 D17 val (G): 70.7 D17 val (J): 68.1 |