
摘要
我们提出Bit Diffusion:一种简单且通用的方法,用于在连续状态与连续时间的扩散模型框架下生成离散数据。该方法的核心思想是:首先将离散数据表示为二进制比特(binary bits),然后训练一个连续扩散模型,将这些比特建模为实数值,我们称之为“模拟比特”(analog bits)。在采样过程中,模型首先生成模拟比特,随后通过阈值化处理将其还原为表示离散变量的实际比特。为进一步提升生成样本的质量,我们提出了两种简单而有效的技术——自条件(Self-Conditioning)与非对称时间区间(Asymmetric Time Intervals),二者显著提升了生成效果。尽管方法设计简洁,该框架在离散图像生成与图像描述生成任务中均表现出强劲性能。在离散图像生成任务中,我们在CIFAR-10(包含3,000个8比特离散token)和ImageNet-64x64(包含12,000个8比特离散token)两个数据集上均显著超越了此前的最先进水平。在样本质量(以FID衡量)和生成效率方面,均优于当前最佳的自回归模型。在MS-COCO数据集上的图像描述生成任务中,我们的方法也取得了与自回归模型相当的竞争力结果。
代码仓库
facebookresearch/flowmm
pytorch
GitHub 中提及
lucidrains/chroma-pytorch
pytorch
GitHub 中提及
google-research/pix2seq
官方
tf
GitHub 中提及
yiyixuxu/denoising-diffusion-flax
jax
GitHub 中提及
lucidrains/bit-diffusion
pytorch
GitHub 中提及
lucidrains/imagen-pytorch
pytorch
GitHub 中提及
pinellolab/dna-diffusion
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-coco | Bit Diffusion (20 steps) | BLEU-4: 34.7 CIDEr: 115 ROUGE-L: 58 |