
摘要
尽管在统一图像分割(IS)方面取得了近期进展,但开发统一视频分割(VS)模型仍然是一项挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跨连续帧进行跟踪,而提示引导的VS任务则需要在整个视频中通过视觉/文本提示重新识别目标,使得用同一架构处理不同任务变得困难。我们尝试解决这些问题,并提出了一种新颖的统一VS架构,即UniVS,通过将提示作为查询来实现。UniVS通过对先前帧中的目标提示特征进行平均,将其作为初始查询以显式解码掩模,并在掩模解码器中引入了针对目标的提示交叉注意力层,以整合记忆池中的提示特征。通过将先前帧中预测的实体掩模作为其视觉提示,UniVS将不同的VS任务转换为提示引导的目标分割,消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务,还自然地实现了通用训练和测试,确保在不同场景下具有稳健的表现。UniVS在10个具有挑战性的VS基准上展示了令人称赞的性能与通用性平衡,涵盖了视频实例、语义、全景、对象和指代分割任务。代码可在\url{https://github.com/MinghanLi/UniVS}获取。
代码仓库
minghanli/univs
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-davis | UniVS(Swin-L) | Ju0026F 1st frame: 59.4? Ju0026F Full video: 59.4 |
| referring-expression-segmentation-on-refer-1 | UniVS(Swin-L) | F: 59.5 J: 56.8 Ju0026F: 58.0 |
| video-instance-segmentation-on-ovis-1 | UniVS(Swin-L) | mask AP: 41.7 |
| video-instance-segmentation-on-youtube-vis-1 | UniVS(Swin-L) | AP50: 82.1 AP75: 65.3 AR1: 54.7 AR10: 66.8 mask AP: 60.0 |
| video-instance-segmentation-on-youtube-vis-2 | UniVS(Swin-L) | AP50: 79.4 AP75: 63.3 AR1: 46.2 AR10: 63.1 mask AP: 57.9 |
| video-object-segmentation-on-davis-2017-val | UniVS(Swin-L) | F-measure: 79.5 Jaccard: 72.8 Mean Jaccard u0026 F-Measure: 76.2 |
| video-object-segmentation-on-youtube-vos-1 | UniVS(Swin-L) | Mean Jaccard u0026 F-Measure: 71.5 |
| video-panoptic-segmentation-on-vipseg | UniVS(Swin-L) | STQ: 58.2 VPQ: 49.3 |
| video-semantic-segmentation-on-vspw | UniVS(Swin-L) | mIoU: 59.8 |