6 个月前

计算机视觉

Zhangxuan Gu Haoxing Chen Zhuoer Xu Jun Lan Changhua Meng Weiqiang Wang

摘要

扩散模型框架在图像生成任务中已达到与以往最先进模型相当的性能。由于其强大的从噪声到图像的去噪能力，研究者们对其在判别性任务中的各类变体产生了浓厚兴趣。本文提出了一种名为 DiffusionInst 的新框架，该框架将实例表示为具有实例感知能力的滤波器，并将实例分割建模为从噪声到滤波器的去噪过程。该模型在训练阶段无需依赖区域提议网络（RPN）的归纳偏置，即可学习逆转带有噪声的真实标签。在推理阶段，模型以随机生成的滤波器作为输入，通过单步或多步去噪过程直接输出分割掩码。在 COCO 和 LVIS 数据集上的大量实验结果表明，DiffusionInst 在采用多种骨干网络（如 ResNet 和 Swin Transformer）的情况下，均展现出与现有实例分割模型相当甚至更优的性能。我们期望本工作能作为一个强有力的基线，激发更多高效扩散框架的设计，以应对具有挑战性的判别性任务。代码已开源，详见：https://github.com/chenhaoxing/DiffusionInst。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Zhangxuan Gu Haoxing Chen Zhuoer Xu Jun Lan Changhua Meng Weiqiang Wang

摘要

扩散模型框架在图像生成任务中已达到与以往最先进模型相当的性能。由于其强大的从噪声到图像的去噪能力，研究者们对其在判别性任务中的各类变体产生了浓厚兴趣。本文提出了一种名为 DiffusionInst 的新框架，该框架将实例表示为具有实例感知能力的滤波器，并将实例分割建模为从噪声到滤波器的去噪过程。该模型在训练阶段无需依赖区域提议网络（RPN）的归纳偏置，即可学习逆转带有噪声的真实标签。在推理阶段，模型以随机生成的滤波器作为输入，通过单步或多步去噪过程直接输出分割掩码。在 COCO 和 LVIS 数据集上的大量实验结果表明，DiffusionInst 在采用多种骨干网络（如 ResNet 和 Swin Transformer）的情况下，均展现出与现有实例分割模型相当甚至更优的性能。我们期望本工作能作为一个强有力的基线，激发更多高效扩散框架的设计，以应对具有挑战性的判别性任务。代码已开源，详见：https://github.com/chenhaoxing/DiffusionInst。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供