4 个月前

Tube-Link:一种灵活的跨管框架用于通用视频分割

Tube-Link:一种灵活的跨管框架用于通用视频分割

摘要

视频分割的目标是在多种场景中准确地分割和跟踪每一个像素。本文提出了一种多功能框架——Tube-Link,该框架通过统一的架构解决了视频分割中的多个核心任务。我们的框架是一种准在线方法,以短子片段作为输入,输出相应的时空管状掩模。为了增强跨管关系的建模,我们提出了一种通过沿查询进行注意力机制的有效方法来实现管级链接。此外,我们引入了时间对比学习,以实例为单位生成判别特征,用于管级关联。我们的方法在处理短视频和长视频输入时都具有灵活性和高效性,因为每个子片段的长度可以根据数据集或场景的需求进行调整。Tube-Link 在五个视频分割数据集上显著超越了现有的专用架构。具体而言,在 VIPSeg 数据集上相对于强大的基线模型 Video K-Net 实现了近 13% 的相对提升,在 KITTI-STEP 数据集上实现了 4% 的提升。当使用 ResNet50 作为主干网络时,Tube-Link 在 Youtube-VIS-2019 和 2021 数据集上分别将 IDOL 提升了 3% 和 4%。

代码仓库

lxtgh/tube-link
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1Tube-Link(ResNet-50)
AP50: 51.5
AP75: 30.2
AR1: 15.5
AR10: 34.5
mask AP: 29.5
video-instance-segmentation-on-youtube-vis-1Tube-Link
AP50: 86.6
AP75: 71.3
AR1: 55.9
AR10: 69.1
mask AP: 64.6
video-instance-segmentation-on-youtube-vis-2Tube-Link(Swin-L)
AP50: 79.4
AP75: 64.3
AR1: 47.5
AR10: 63.6
mask AP: 58.4
video-panoptic-segmentation-on-kitti-stepTube-Link(Swin-base)
AQ: 69.0
SQ: 74.0
STQ: 72.0
video-panoptic-segmentation-on-vipsegTube-Link(Swin-base)
STQ: 49.4
VPQ: 50.4
video-semantic-segmentation-on-vspwTube-Link(Swin-large)
mIoU: 59.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Tube-Link:一种灵活的跨管框架用于通用视频分割 | 论文 | HyperAI超神经