6 个月前

多任务学习

计算机视觉

Thuy C. Nguyen Tuan N. Tang Nam LH. Phan Chuong H. Nguyen Masayuki Yamazaki Masao Yamanaka

摘要

视频实例分割（Video Instance Segmentation, VIS）是一项多任务学习问题，旨在同时完成目标检测、实例分割与目标跟踪。相较于图像集任务，视频数据引入了时间维度信息，若能有效利用，将显著有助于识别和预测目标的运动轨迹。本文提出一种统一模型，实现上述任务之间的相互协同学习。具体而言，我们设计了两个核心模块：时序相关实例分割（Temporally Correlated Instance Segmentation, TCIS）与双向跟踪（Bidirectional Tracking, BiTrack），以充分挖掘相邻帧间目标实例掩码之间的时序相关性。另一方面，由于视频帧之间存在大量重叠，导致数据冗余问题较为普遍。我们的分析表明，该问题在YoutubeVOS-VIS2021数据集上尤为严重。为此，我们提出一种多源数据（Multi-Source Data, MSD）训练机制，以弥补数据不足的问题。通过结合上述技术与一系列优化策略，模型性能相较于基线方法得到显著提升，并在YoutubeVOS-VIS 2019和2021两个数据集上大幅超越现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

计算机视觉

Thuy C. Nguyen Tuan N. Tang Nam LH. Phan Chuong H. Nguyen Masayuki Yamazaki Masao Yamanaka

摘要

视频实例分割（Video Instance Segmentation, VIS）是一项多任务学习问题，旨在同时完成目标检测、实例分割与目标跟踪。相较于图像集任务，视频数据引入了时间维度信息，若能有效利用，将显著有助于识别和预测目标的运动轨迹。本文提出一种统一模型，实现上述任务之间的相互协同学习。具体而言，我们设计了两个核心模块：时序相关实例分割（Temporally Correlated Instance Segmentation, TCIS）与双向跟踪（Bidirectional Tracking, BiTrack），以充分挖掘相邻帧间目标实例掩码之间的时序相关性。另一方面，由于视频帧之间存在大量重叠，导致数据冗余问题较为普遍。我们的分析表明，该问题在YoutubeVOS-VIS2021数据集上尤为严重。为此，我们提出一种多源数据（Multi-Source Data, MSD）训练机制，以弥补数据不足的问题。通过结合上述技术与一系列优化策略，模型性能相较于基线方法得到显著提升，并在YoutubeVOS-VIS 2019和2021两个数据集上大幅超越现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2021年YouTubeVOS挑战赛一等奖解决方案：视频实例分割 | 论文 | HyperAI超神经