Nikhila RaviValentin GabeurYuan-Ting HuRonghang HuChaitanya RyaliTengyu MaHaitham KhedrRoman RädleChloe RollandLaura GustafsonEric MintunJunting PanKalyan Vasudev AlwalaNicolas CarionChao-Yuan WuRoss GirshickPiotr DollárChristoph Feichtenhofer

摘要
我们介绍了Segment Anything Model 2(SAM 2),这是一款旨在解决图像和视频中可提示视觉分割的基础模型。我们构建了一个数据引擎,通过用户交互改进模型和数据,从而收集了迄今为止最大的视频分割数据集。我们的模型采用了具有流式内存的简单变压器架构,用于实时视频处理。基于我们数据集训练的SAM 2在多种任务中表现出强大的性能。在视频分割方面,我们观察到其准确性更高,且所需的用户交互次数仅为先前方法的三分之一。在图像分割方面,我们的模型不仅更加准确,而且速度比Segment Anything Model(SAM)快6倍。我们认为,我们的数据、模型和见解将成为视频分割及相关感知任务的重要里程碑。我们将发布该模型的一个版本、数据集以及一个交互式演示。
代码仓库
bowang-lab/medsam2
pytorch
GitHub 中提及
MindCode-4/code-4/tree/main/sam
mindspore
yangchris11/samurai
pytorch
GitHub 中提及
TripleJoy/SAM2MOT
pytorch
GitHub 中提及
louisfinner/him2sam
pytorch
GitHub 中提及
facebookresearch/segment-anything
pytorch
GitHub 中提及
facebookresearch/sam2
官方
pytorch
GitHub 中提及
idea-research/grounded-sam-2
pytorch
GitHub 中提及
dcnieho/segment-anything-2
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-21 | SAM2 | Ju0026F: 77.9 |
| visual-object-tracking-on-davis-2017 | SAM2 | Ju0026F: 90.7 Params(M): 224.4 |
| visual-object-tracking-on-didi | SAM2.1 | Tracking quality: 0.649 |
| visual-object-tracking-on-vot2022 | SAM2.1 | EAO: 0.692 |