4 个月前

SAM 2：在图像和视频中分割任何内容

Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu Chaitanya Ryali Tengyu Ma Haitham Khedr Roman Rädle Chloe Rolland Laura Gustafson Eric Mintun Junting Pan Kalyan Vasudev Alwala Nicolas Carion Chao-Yuan Wu Ross Girshick Piotr Dollár Christoph Feichtenhofer

摘要

我们介绍了Segment Anything Model 2（SAM 2），这是一款旨在解决图像和视频中可提示视觉分割的基础模型。我们构建了一个数据引擎，通过用户交互改进模型和数据，从而收集了迄今为止最大的视频分割数据集。我们的模型采用了具有流式内存的简单变压器架构，用于实时视频处理。基于我们数据集训练的SAM 2在多种任务中表现出强大的性能。在视频分割方面，我们观察到其准确性更高，且所需的用户交互次数仅为先前方法的三分之一。在图像分割方面，我们的模型不仅更加准确，而且速度比Segment Anything Model（SAM）快6倍。我们认为，我们的数据、模型和见解将成为视频分割及相关感知任务的重要里程碑。我们将发布该模型的一个版本、数据集以及一个交互式演示。

代码仓库

bowang-lab/medsam2

pytorch

GitHub 中提及

MindCode-4/code-4/tree/main/sam

mindspore

yangchris11/samurai

pytorch

GitHub 中提及

TripleJoy/SAM2MOT

pytorch

GitHub 中提及

louisfinner/him2sam

pytorch

GitHub 中提及

facebookresearch/segment-anything

pytorch

GitHub 中提及

facebookresearch/sam2

官方

pytorch

GitHub 中提及

idea-research/grounded-sam-2

pytorch

GitHub 中提及

MindSpore-scientific/code-7/tree/main/SAM

ibaiGorordo/ONNX-SAM2-Segment-Anything

dcnieho/segment-anything-2

pytorch

GitHub 中提及

基准测试

基准	方法	指标
semi-supervised-video-object-segmentation-on-21	SAM2	Ju0026F: 77.9
visual-object-tracking-on-davis-2017	SAM2	Ju0026F: 90.7 Params(M): 224.4
visual-object-tracking-on-didi	SAM2.1	Tracking quality: 0.649
visual-object-tracking-on-vot2022	SAM2.1	EAO: 0.692

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供