6 个月前

摘要

我们提出 MinVIS，一种极简的视频实例分割（Video Instance Segmentation, VIS）框架，在无需依赖视频专用架构或训练流程的情况下，实现了当前最优的 VIS 性能。通过仅训练一个基于查询的图像实例分割模型，MinVIS 在具有挑战性的遮挡视频实例分割（Occluded VIS）数据集上的表现优于此前最佳结果超过 10% 的 AP（平均精度）。由于 MinVIS 在训练过程中将视频帧视为独立图像，因此无需任何修改即可大幅降低标注帧的采样比例。仅使用 1% 的标注帧，MinVIS 在 YouTube-VIS 2019 和 2021 数据集上的性能即可超越或媲美完全监督的当前最优方法。我们的核心观察是：那些在帧内被训练为区分不同目标实例的查询，在时间维度上具有高度一致性，因而可直接用于实例追踪，而无需依赖人工设计的启发式规则。基于此，MinVIS 的推理流程如下：首先，将训练好的基于查询的图像实例分割模型独立应用于每一视频帧；随后，通过对应查询之间的二分图匹配实现实例追踪。该推理过程为在线处理方式，无需一次性处理整段视频。因此，MinVIS 在显著降低标注成本与内存需求的同时，保持了卓越的视频实例分割性能，具备良好的实际应用价值。代码已开源，地址为：https://github.com/NVlabs/MinVIS

源 PDF