6 个月前

摘要

端到端范式显著提升了各类基于深度学习的计算机视觉模型的准确性。为此，目标检测等任务通过替换非端到端组件得到了改进，例如，通过基于二分匹配的集合损失（set loss）进行训练，从而摒弃非极大值抑制（non-maximum suppression）步骤。然而，由于实例分割的输出维度远高于目标检测，此类改进方法难以直接适用于实例分割任务。本文提出一种新型实例分割Transformer模型——ISTR（Instance Segmentation Transformer），这是首个实现端到端训练的实例分割框架。ISTR通过预测低维掩码嵌入（mask embeddings），并将其与真实标签的掩码嵌入进行匹配，以实现集合损失优化。此外，ISTR采用递归精炼策略，同步完成目标检测与分割任务，为实例分割提供了一种区别于传统自顶向下和自底向上框架的新范式。得益于所提出的端到端机制，即使在使用基于近似方法获得的次优嵌入时，ISTR仍表现出当前最先进的性能。具体而言，在MS COCO数据集上，ISTR使用ResNet50-FPN获得46.8/38.6的框（box）/掩码（mask）平均精度（AP），使用ResNet101-FPN则达到48.1/39.9的AP。定量与定性实验结果表明，ISTR在实例级识别任务中展现出巨大潜力，可作为强有力的基准模型。相关代码已开源，地址为：https://github.com/hujiecpp/ISTR。

源 PDF