
摘要
PixelCNN 在自然图像的密度估计方面取得了最先进的成果。尽管训练速度快,但推理成本高昂,需要对每个像素进行一次网络评估;对于 N 个像素,其复杂度为 O(N)。通过缓存激活可以加速这一过程,但仍需依次生成每个像素。在本研究中,我们提出了一种并行化的 PixelCNN 模型,该模型通过将某些像素组建模为条件独立来实现更高效的推理。我们的新 PixelCNN 模型不仅在密度估计方面具有竞争力,而且实现了数量级的速度提升——采样复杂度从 O(N) 降低到 O(log N),从而使得 512x512 图像的实际生成成为可能。我们在类别条件图像生成、文本到图像合成以及动作条件视频生成等任务上对模型进行了评估,结果显示我们的模型在允许高效采样的非像素自回归密度模型中取得了最佳结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-compression-on-imagenet32 | MS-PixelCNN | bpsp: 3.95 |
| image-generation-on-imagenet-64x64 | Parallel Multiscale | Bits per dim: 3.7 |