8 个月前

多任务学习

计算机视觉

Xiangtai Li Haobo Yuan Wenwei Zhang Guangliang Cheng Jiangmiao Pang Chen Change Loy

摘要

视频分割的目标是在多种场景中准确地分割和跟踪每一个像素。本文提出了一种多功能框架——Tube-Link，该框架通过统一的架构解决了视频分割中的多个核心任务。我们的框架是一种准在线方法，以短子片段作为输入，输出相应的时空管状掩模。为了增强跨管关系的建模，我们提出了一种通过沿查询进行注意力机制的有效方法来实现管级链接。此外，我们引入了时间对比学习，以实例为单位生成判别特征，用于管级关联。我们的方法在处理短视频和长视频输入时都具有灵活性和高效性，因为每个子片段的长度可以根据数据集或场景的需求进行调整。Tube-Link 在五个视频分割数据集上显著超越了现有的专用架构。具体而言，在 VIPSeg 数据集上相对于强大的基线模型 Video K-Net 实现了近 13% 的相对提升，在 KITTI-STEP 数据集上实现了 4% 的提升。当使用 ResNet50 作为主干网络时，Tube-Link 在 Youtube-VIS-2019 和 2021 数据集上分别将 IDOL 提升了 3% 和 4%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Xiangtai Li Haobo Yuan Wenwei Zhang Guangliang Cheng Jiangmiao Pang Chen Change Loy

摘要

视频分割的目标是在多种场景中准确地分割和跟踪每一个像素。本文提出了一种多功能框架——Tube-Link，该框架通过统一的架构解决了视频分割中的多个核心任务。我们的框架是一种准在线方法，以短子片段作为输入，输出相应的时空管状掩模。为了增强跨管关系的建模，我们提出了一种通过沿查询进行注意力机制的有效方法来实现管级链接。此外，我们引入了时间对比学习，以实例为单位生成判别特征，用于管级关联。我们的方法在处理短视频和长视频输入时都具有灵活性和高效性，因为每个子片段的长度可以根据数据集或场景的需求进行调整。Tube-Link 在五个视频分割数据集上显著超越了现有的专用架构。具体而言，在 VIPSeg 数据集上相对于强大的基线模型 Video K-Net 实现了近 13% 的相对提升，在 KITTI-STEP 数据集上实现了 4% 的提升。当使用 ResNet50 作为主干网络时，Tube-Link 在 Youtube-VIS-2019 和 2021 数据集上分别将 IDOL 提升了 3% 和 4%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供