
摘要
自然数据具有冗余性,而当前主流架构在输入和输出空间中对计算进行均匀分布。为此,我们提出循环接口网络(Recurrent Interface Networks, RINs),这是一种基于注意力机制的架构,能够将核心计算与数据维度解耦,从而实现针对高维数据生成的自适应计算,显著提升可扩展性。RINs将大部分计算(即全局自注意力)集中于一组潜在标记(latent tokens)上,并通过交叉注意力机制在潜在标记与数据标记之间读取和写入(即路由)信息。通过堆叠RIN模块,可实现自下而上(数据到潜在)和自上而下(潜在到数据)的反馈机制,从而构建更深层次、更具表现力的信息路由路径。尽管这种路由机制带来了新的挑战,但在循环计算场景中,这一问题相对不显著,因为任务(以及路由问题)会逐步演变,例如在扩散模型的迭代生成过程中。我们提出通过在反向扩散过程的每一次前向传播中,以先前计算得到的潜在标记作为条件,实现潜在标记的自条件化(latent self-conditioning),从而有效利用循环特性。实验表明,RINs在图像与视频生成任务中实现了当前最优的像素级扩散模型性能,无需级联结构或引导机制即可生成1024×1024分辨率图像,同时具备领域无关性,且相比二维和三维U-Net架构,计算效率最高可提升达10倍。
代码仓库
google-research/pix2seq
官方
tf
GitHub 中提及
lucidrains/recurrent-interface-network-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-imagenet-128x128 | RIN | FID: 2.75 IS: 144.1 |
| image-generation-on-imagenet-256x256 | RIN | FID: 4.51 |
| image-generation-on-imagenet-64x64 | RIN | FID: 1.23 |
| video-prediction-on-kinetics-600-12-frames | RIN (1000 steps) | FVD: 10.8 IS: 17.7 |
| video-prediction-on-kinetics-600-12-frames | RIN (400 steps) | FVD: 11.5 IS: 17.7 |