4 个月前

SAM2Long: 基于无训练记忆树增强的长视频分割方法

SAM2Long: 基于无训练记忆树增强的长视频分割方法

摘要

Segment Anything 模型 2(SAM 2)已成为图像和视频对象分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2 在视频分割中的关键设计在于其记忆模块,该模块从先前帧中提取对象感知的记忆以辅助当前帧的预测。然而,其贪婪选择的记忆设计存在“误差累积”问题,即一个错误或遗漏的掩码会级联影响后续帧的分割效果,这限制了 SAM 2 在复杂长视频中的性能。为此,我们引入了 SAM2Long,这是一种改进的无需训练的视频对象分割策略。SAM2Long 考虑了每帧内的分割不确定性,并通过受限树搜索的方式从多个分割路径中选择视频级别的最优结果。在实际应用中,我们在整个视频过程中保持固定数量的分割路径。对于每一帧,基于现有路径提出多个掩码,生成不同的候选分支。然后,我们选择具有较高累积分数的相同固定数量的分支作为下一帧的新路径。在处理最后一帧后,选择累积分数最高的路径作为最终的分割结果。得益于其启发式搜索设计,SAM2Long 对遮挡和对象重新出现具有较强的鲁棒性,并能有效分割和跟踪复杂长视频中的对象。值得注意的是,在 SA-V 和 LVOS 等长期视频对象分割基准测试中,SAM2Long 在所有 24 次对比实验中平均提高了 3.0 分,在 J&F 指标上最高提升了 5.3 分。代码已发布在 https://github.com/Mark12Ding/SAM2Long。

代码仓库

mark12ding/sam2long
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-object-tracking-on-didiSAM2.1Long
Tracking quality: 0.646

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SAM2Long: 基于无训练记忆树增强的长视频分割方法 | 论文 | HyperAI超神经