3 个月前

论在线模型在视频实例分割中的应用价值

论在线模型在视频实例分割中的应用价值

摘要

近年来,视频实例分割(Video Instance Segmentation, VIS)主要得益于离线模型的快速发展,而在线模型则因性能相对较低,逐渐受到较少关注。然而,在处理长视频序列和持续输入视频方面,在线方法具有天然优势,而离线模型受限于计算资源,难以胜任此类任务。因此,若能实现在线模型在性能上与离线模型相当甚至超越,将具有重要意义。通过对现有在线与离线模型的深入分析,我们发现性能差距的主要根源在于:在特征空间中,不同实例之间外观相似,导致帧间关联过程容易产生错误。针对这一问题,我们提出一种基于对比学习的在线框架,能够学习更具判别性的实例嵌入用于关联,并充分挖掘历史信息以提升分割结果的稳定性。尽管方法设计简洁,其在三个主流基准测试上均显著超越了所有现有在线与离线方法。具体而言,在YouTube-VIS 2019数据集上,我们取得了49.5的AP值,相比此前最优的在线方法和离线方法,分别提升了13.2 AP和2.1 AP。在更具挑战性的OVIS数据集上(该数据集存在显著的密集遮挡与重叠),我们实现了30.2的AP,较此前最优方法提升14.8 AP。该方法在2022年CVPR举办的第四届大规模视频目标分割挑战赛(Large-scale Video Object Segmentation Challenge, LVOS Challenge)的视频实例分割赛道中荣获第一名。我们期望本方法所展现的简洁性与高效性,以及对当前VIS方法本质问题的深入洞察,能够为未来视频实例分割模型的研究提供新的思路与启发。

代码仓库

mkimhi/RISE
pytorch
GitHub 中提及
wjf5203/vnext
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1IDOL (ResNet-50)
AP50: 51.3
AP75: 30
AR1: 15
AR10: 37.5
mask AP: 30.2
video-instance-segmentation-on-ovis-1IDOL (Swin-L)
AP50: 65.7
AP75: 45.2
AR1: 17.9
AR10: 49.6
mask AP: 42.6
video-instance-segmentation-on-youtube-vis-1IDOL (ResNet-50)
AP50: 74
AP75: 52.9
AR1: 47.7
AR10: 58.7
mask AP: 49.5
video-instance-segmentation-on-youtube-vis-2IDOL (Swin-L)
AP50: 80.8
AP75: 63.5
AR1: 45
AR10: 60.1
mask AP: 56.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
论在线模型在视频实例分割中的应用价值 | 论文 | HyperAI超神经