6 个月前

计算机视觉

Subham Sekhar Sahoo Aaron Gokaslan Chris De Sa Volodymyr Kuleshov

摘要

扩散模型作为生成高质量图像的强大算法，近年来受到广泛关注。这类算法的核心在于扩散过程——一组将数据逐步转化为噪声的方程，其设计对模型性能具有显著影响。本文探讨了是否能够从数据中学习扩散过程。我们的研究基于贝叶斯推断框架，旨在通过将学习到的扩散过程视为近似变分后验，从而提升对数似然估计的准确性，进而获得更紧的似然下界（即ELBO）。长期以来，一个普遍假设认为ELBO对噪声过程具有不变性；而本文的工作打破了这一假设，并提出多变量可学习自适应噪声（Multivariate Learned Adaptive Noise, MULAN），一种能够根据不同图像区域以不同速率施加噪声的可学习扩散过程。具体而言，我们的方法依赖于一个依赖于数据的多变量噪声调度机制，从而确保ELBO不再像以往方法那样对噪声调度的选择保持不变。实验结果表明，MULAN在CIFAR-10和ImageNet数据集上的密度估计任务中达到了新的最先进水平，同时将训练步数减少了50%。项目主页提供完整代码、博客文章及视频教程：https://s-sahoo.com/MuLAN

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Subham Sekhar Sahoo Aaron Gokaslan Chris De Sa Volodymyr Kuleshov

摘要

扩散模型作为生成高质量图像的强大算法，近年来受到广泛关注。这类算法的核心在于扩散过程——一组将数据逐步转化为噪声的方程，其设计对模型性能具有显著影响。本文探讨了是否能够从数据中学习扩散过程。我们的研究基于贝叶斯推断框架，旨在通过将学习到的扩散过程视为近似变分后验，从而提升对数似然估计的准确性，进而获得更紧的似然下界（即ELBO）。长期以来，一个普遍假设认为ELBO对噪声过程具有不变性；而本文的工作打破了这一假设，并提出多变量可学习自适应噪声（Multivariate Learned Adaptive Noise, MULAN），一种能够根据不同图像区域以不同速率施加噪声的可学习扩散过程。具体而言，我们的方法依赖于一个依赖于数据的多变量噪声调度机制，从而确保ELBO不再像以往方法那样对噪声调度的选择保持不变。实验结果表明，MULAN在CIFAR-10和ImageNet数据集上的密度估计任务中达到了新的最先进水平，同时将训练步数减少了50%。项目主页提供完整代码、博客文章及视频教程：https://s-sahoo.com/MuLAN

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供