4 个月前

UniVS:统一且通用的视频分割方法——以提示作为查询

UniVS:统一且通用的视频分割方法——以提示作为查询

摘要

尽管在统一图像分割(IS)方面取得了近期进展,但开发统一视频分割(VS)模型仍然是一项挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跨连续帧进行跟踪,而提示引导的VS任务则需要在整个视频中通过视觉/文本提示重新识别目标,使得用同一架构处理不同任务变得困难。我们尝试解决这些问题,并提出了一种新颖的统一VS架构,即UniVS,通过将提示作为查询来实现。UniVS通过对先前帧中的目标提示特征进行平均,将其作为初始查询以显式解码掩模,并在掩模解码器中引入了针对目标的提示交叉注意力层,以整合记忆池中的提示特征。通过将先前帧中预测的实体掩模作为其视觉提示,UniVS将不同的VS任务转换为提示引导的目标分割,消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务,还自然地实现了通用训练和测试,确保在不同场景下具有稳健的表现。UniVS在10个具有挑战性的VS基准上展示了令人称赞的性能与通用性平衡,涵盖了视频实例、语义、全景、对象和指代分割任务。代码可在\url{https://github.com/MinghanLi/UniVS}获取。

代码仓库

minghanli/univs
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-davisUniVS(Swin-L)
Ju0026F 1st frame: 59.4?
Ju0026F Full video: 59.4
referring-expression-segmentation-on-refer-1UniVS(Swin-L)
F: 59.5
J: 56.8
Ju0026F: 58.0
video-instance-segmentation-on-ovis-1UniVS(Swin-L)
mask AP: 41.7
video-instance-segmentation-on-youtube-vis-1UniVS(Swin-L)
AP50: 82.1
AP75: 65.3
AR1: 54.7
AR10: 66.8
mask AP: 60.0
video-instance-segmentation-on-youtube-vis-2UniVS(Swin-L)
AP50: 79.4
AP75: 63.3
AR1: 46.2
AR10: 63.1
mask AP: 57.9
video-object-segmentation-on-davis-2017-valUniVS(Swin-L)
F-measure: 79.5
Jaccard: 72.8
Mean Jaccard u0026 F-Measure: 76.2
video-object-segmentation-on-youtube-vos-1UniVS(Swin-L)
Mean Jaccard u0026 F-Measure: 71.5
video-panoptic-segmentation-on-vipsegUniVS(Swin-L)
STQ: 58.2
VPQ: 49.3
video-semantic-segmentation-on-vspwUniVS(Swin-L)
mIoU: 59.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniVS:统一且通用的视频分割方法——以提示作为查询 | 论文 | HyperAI超神经