6 个月前

摘要

近期，基于查询（query-based）的目标检测框架已达到与以往最先进目标检测器相当的性能水平。然而，如何充分挖掘此类框架在实例分割任务中的潜力，仍是尚未解决的关键问题。本文提出了一种基于查询的实例分割方法——QueryInst（Instances as Queries），该方法通过在动态掩码头（dynamic mask heads）上施加并行监督来驱动模型训练。QueryInst的核心思想在于利用不同阶段之间对象查询（object queries）的内在一一对应关系，以及同一阶段中掩码RoI特征与对象查询之间的一一对应关系。这一设计有效消除了非查询式多阶段实例分割方法中固有的显式多阶段掩码头连接问题以及候选区域分布不一致的问题。我们在三个具有挑战性的基准数据集——COCO、CityScapes 和 YouTube-VIS 上进行了大量实验，全面评估了QueryInst在实例分割与视频实例分割（VIS）任务中的有效性。具体而言，在使用ResNet-101-FPN作为主干网络的情况下，QueryInst在COCO test-dev集上取得了48.1的框AP（box AP）和42.8的掩码AP（mask AP），在框AP与掩码AP两项指标上均比HTC高出2个百分点，同时推理速度提升达2.4倍。在视频实例分割任务中，QueryInst在所有在线式VIS方法中表现最佳，并实现了良好的速度-精度权衡。代码已开源，地址为：\url{https://github.com/hustvl/QueryInst}。

源 PDF