4 个月前

多任务学习

计算机视觉

Michaelis Claudio Bethge Matthias Ecker Alexander S.

摘要

我们研究单次分割（one-shot segmentation）问题：在杂乱场景中，仅根据一个示例指令，识别并分割出一个此前从未见过的物体。为此，我们提出了一种新的数据集，命名为 $\textit{cluttered Omniglot}$ 。通过采用一种基础架构——结合孪生网络（Siamese embedding）用于检测、U-net 用于分割——我们发现，随着场景杂乱程度的增加，该任务的难度也随之逐步提升。通过引入具备不同规模真实标签信息访问权限的“理想模型”（oracle models），我们对问题的多个方面进行了评估，结果表明，在此类视觉搜索任务中，检测与分割是相互交织的两个问题，解决其中一个有助于推动另一个的优化。因此，我们提出了 $\textit{MaskNet}$ ，一种改进型模型，该模型能够关注多个候选位置，生成分割提案以掩蔽背景杂乱区域，并在分割出的物体中进行选择。我们的研究结果表明，基于对象检测与前景分割的迭代优化机制的图像识别模型，可能为处理高度杂乱的场景提供一种有效途径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

多任务学习

计算机视觉

Michaelis Claudio Bethge Matthias Ecker Alexander S.

摘要

我们研究单次分割（one-shot segmentation）问题：在杂乱场景中，仅根据一个示例指令，识别并分割出一个此前从未见过的物体。为此，我们提出了一种新的数据集，命名为 $\textit{cluttered Omniglot}$ 。通过采用一种基础架构——结合孪生网络（Siamese embedding）用于检测、U-net 用于分割——我们发现，随着场景杂乱程度的增加，该任务的难度也随之逐步提升。通过引入具备不同规模真实标签信息访问权限的“理想模型”（oracle models），我们对问题的多个方面进行了评估，结果表明，在此类视觉搜索任务中，检测与分割是相互交织的两个问题，解决其中一个有助于推动另一个的优化。因此，我们提出了 $\textit{MaskNet}$ ，一种改进型模型，该模型能够关注多个候选位置，生成分割提案以掩蔽背景杂乱区域，并在分割出的物体中进行选择。我们的研究结果表明，基于对象检测与前景分割的迭代优化机制的图像识别模型，可能为处理高度杂乱的场景提供一种有效途径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供