7 个月前

卷积神经网络

计算机视觉

David Nilsson Cristian Sminchisescu

摘要

语义视频分割具有挑战性，主要是因为需要处理和标注大量数据以构建准确的模型。在本文中，我们提出了一种深度的端到端可训练方法，该方法能够利用未标注数据中的信息来提高语义估计的准确性。我们的模型结合了卷积架构和时空变换器递归层，通过光流（optical flow）实现时间上的标签信息传播，并根据局部估计的不确定性自适应地进行门控。光流、识别和门控时间传播模块可以联合训练，实现端到端的训练。我们模型的时间门控递归光流传播组件可以插入任何静态语义分割架构中，将其转化为弱监督视频处理架构。我们在具有挑战性的CityScapes和CamVid数据集上进行了广泛的实验，并基于多种深度架构进行了测试，结果表明，该模型能够在几乎不增加标注成本且计算开销较小的情况下，利用未标注的时间帧与已标注帧相结合，提高视频分割的准确性和时间标签的一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

David Nilsson Cristian Sminchisescu

摘要

语义视频分割具有挑战性，主要是因为需要处理和标注大量数据以构建准确的模型。在本文中，我们提出了一种深度的端到端可训练方法，该方法能够利用未标注数据中的信息来提高语义估计的准确性。我们的模型结合了卷积架构和时空变换器递归层，通过光流（optical flow）实现时间上的标签信息传播，并根据局部估计的不确定性自适应地进行门控。光流、识别和门控时间传播模块可以联合训练，实现端到端的训练。我们模型的时间门控递归光流传播组件可以插入任何静态语义分割架构中，将其转化为弱监督视频处理架构。我们在具有挑战性的CityScapes和CamVid数据集上进行了广泛的实验，并基于多种深度架构进行了测试，结果表明，该模型能够在几乎不增加标注成本且计算开销较小的情况下，利用未标注的时间帧与已标注帧相结合，提高视频分割的准确性和时间标签的一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于门控循环流传播的语义视频分割 | 论文 | HyperAI超神经