6 个月前

摘要

我们提出Bit Diffusion：一种简单且通用的方法，用于在连续状态与连续时间的扩散模型框架下生成离散数据。该方法的核心思想是：首先将离散数据表示为二进制比特（binary bits），然后训练一个连续扩散模型，将这些比特建模为实数值，我们称之为“模拟比特”（analog bits）。在采样过程中，模型首先生成模拟比特，随后通过阈值化处理将其还原为表示离散变量的实际比特。为进一步提升生成样本的质量，我们提出了两种简单而有效的技术——自条件（Self-Conditioning）与非对称时间区间（Asymmetric Time Intervals），二者显著提升了生成效果。尽管方法设计简洁，该框架在离散图像生成与图像描述生成任务中均表现出强劲性能。在离散图像生成任务中，我们在CIFAR-10（包含3,000个8比特离散token）和ImageNet-64x64（包含12,000个8比特离散token）两个数据集上均显著超越了此前的最先进水平。在样本质量（以FID衡量）和生成效率方面，均优于当前最佳的自回归模型。在MS-COCO数据集上的图像描述生成任务中，我们的方法也取得了与自回归模型相当的竞争力结果。

源 PDF