
摘要
我们提出了一种名为RefineVIS的新框架,用于视频实例分割(VIS),该框架通过迭代利用序列上下文来优化表示,从而实现帧间良好的对象关联和精确的分割掩码。RefineVIS在现成的帧级图像实例分割模型基础上学习了两种独立的表示:一种是负责跨帧关联对象的关联表示,另一种是生成精确分割掩码的分割表示。对比学习被用于学习时间上稳定的关联表示。一个时间注意力精炼(TAR)模块通过利用时间关系和一种新颖的时间对比去噪技术来学习区分性的分割表示。我们的方法支持在线和离线推理。在YouTube-VIS 2019(64.4 AP)、YouTube-VIS 2021(61.4 AP)和OVIS(46.1 AP)数据集上,该方法实现了最先进的视频实例分割精度。可视化结果表明,TAR模块可以生成更准确的实例分割掩码,尤其是在处理高度遮挡的对象等具有挑战性的情况时。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-ovis-1 | RefineVIS (Swin-L, offline) | AP50: 70.4 AP75: 48.4 AR1: 19.1 AR10: 51.2 mask AP: 46 |
| video-instance-segmentation-on-youtube-vis-2 | RefineVIS (Swin-L, online) | AP50: 84.1 AP75: 68.5 AR1: 48.3 AR10: 65.2 mask AP: 61.4 |