7 个月前

卷积神经网络

计算机视觉

Pavel Tokmakov Karteek Alahari Cordelia Schmid

摘要

本文探讨了在无约束视频中分割移动物体的任务。我们引入了一种具有显式记忆模块的新型双流神经网络来实现这一目标。该网络的两个分支分别对视频序列中的空间特征和时间特征进行编码，而记忆模块则捕捉物体随时间的变化过程。通过一个卷积递归单元从少量训练视频序列中学习，构建了视频中的“视觉记忆”，即所有视频帧的联合表示。给定一帧视频作为输入，我们的方法根据所学的空间-时间特征以及特定于该视频的“视觉记忆”（无需任何手动标注的帧即可自动获取）为每个像素分配物体或背景标签。视觉记忆采用卷积门控递归单元实现，这使得空间信息能够在时间上进行传播。我们在DAVIS和Freiburg-Berkeley运动分割数据集这两个基准上对我们的方法进行了广泛的评估，并展示了最先进水平的结果。例如，我们的方法在DAVIS数据集上的表现比最佳方法高出近6%。此外，我们还提供了详尽的消融分析，以研究所提出的框架中每个组件的影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Pavel Tokmakov Karteek Alahari Cordelia Schmid

摘要

本文探讨了在无约束视频中分割移动物体的任务。我们引入了一种具有显式记忆模块的新型双流神经网络来实现这一目标。该网络的两个分支分别对视频序列中的空间特征和时间特征进行编码，而记忆模块则捕捉物体随时间的变化过程。通过一个卷积递归单元从少量训练视频序列中学习，构建了视频中的“视觉记忆”，即所有视频帧的联合表示。给定一帧视频作为输入，我们的方法根据所学的空间-时间特征以及特定于该视频的“视觉记忆”（无需任何手动标注的帧即可自动获取）为每个像素分配物体或背景标签。视觉记忆采用卷积门控递归单元实现，这使得空间信息能够在时间上进行传播。我们在DAVIS和Freiburg-Berkeley运动分割数据集这两个基准上对我们的方法进行了广泛的评估，并展示了最先进水平的结果。例如，我们的方法在DAVIS数据集上的表现比最佳方法高出近6%。此外，我们还提供了详尽的消融分析，以研究所提出的框架中每个组件的影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供