3 个月前

像素级双射匹配用于视频对象分割

像素级双射匹配用于视频对象分割

摘要

半监督视频对象分割(Semi-supervised Video Object Segmentation, VOS)旨在对视频首帧中指定的目标对象实现像素级跟踪。为了充分挖掘目标对象的外观信息,像素级特征匹配在VOS任务中被广泛采用。传统的特征匹配采用满射(surjective)方式,即仅考虑从查询帧到参考帧的最佳匹配结果。在此机制下,查询帧中的每个像素位置仅对应参考帧中的最优匹配位置,而不论参考帧中某一位置被引用的频率如何。该方法在大多数情况下表现良好,且对目标外观的快速变化具有较强的鲁棒性,但在查询帧中存在与目标外观相似的背景干扰物时,可能引发严重错误。为缓解这一问题,本文提出一种双射(bijective)匹配机制,实现查询帧与参考帧之间的双向最优匹配。在为查询帧像素寻找最佳匹配之前,首先考虑参考帧像素的最优匹配,以避免参考帧中的任意像素被过度引用。由于该机制具有严格的约束性——仅当两个像素互为确定性匹配时才建立连接,因此能够有效消除背景干扰物的影响。此外,本文还提出一种掩码嵌入(mask embedding)模块,以改进现有的掩码传播方法。该模块通过融合带有坐标信息的历史掩码,能够有效捕捉目标对象在空间中的位置信息,从而提升分割结果的准确性和一致性。

代码仓库

suhwan-cho/bmvos
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-20BMVOS
D16 val (F): 81.4
D16 val (G): 82.2
D16 val (J): 82.9
D17 test (F): 64.7
D17 test (G): 62.7
D17 test (J): 60.7
D17 val (F): 74.7
D17 val (G): 72.7
D17 val (J): 70.7
FPS: 45.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
像素级双射匹配用于视频对象分割 | 论文 | HyperAI超神经