8 个月前

摘要

无监督视频对象分割（UVOS）是一个逐像素的二值标记问题，其目标是在不使用前景对象的真实标签（GT）掩模的情况下，将视频中的前景对象从背景中分离出来。大多数先前的UVOS模型使用第一帧或整个视频作为参考帧来指定前景对象的掩模。我们的问题是为什么一定要选择第一帧作为参考帧，或者为什么一定要使用整个视频来指定掩模。我们认为，通过选择一个更好的参考帧，可以实现比仅使用第一帧或整个视频作为参考帧更优的UVOS性能。在本文中，我们提出了易于帧选择器（Easy Frame Selector, EFS）。EFS使我们能够选择一个“简单”的参考帧，从而简化后续的VOS任务，进而提高VOS性能。此外，我们提出了一种新的框架——迭代掩模预测（Iterative Mask Prediction, IMP）。在这个框架中，我们反复将EFS应用于给定的视频，并从视频中选择一个比前一次迭代“更简单”的参考帧，逐步提升VOS性能。IMP框架由EFS、双向掩模预测（Bi-directional Mask Prediction, BMP）和时间信息更新（Temporal Information Updating, TIU）组成。通过所提出的框架，我们在三个UVOS基准数据集上取得了最先进的性能：DAVIS16、FBMS和SegTrack-V2。

源 PDF