3 个月前

GIVT:生成式无限词汇变换器

GIVT:生成式无限词汇变换器

摘要

我们提出了生成式无限词汇量变换器(Generative Infinite-Vocabulary Transformers, GIVT),该模型生成的是包含实数值的向量序列,而非传统方法中基于有限词汇表的离散标记(token)。为此,我们对仅解码器结构的变换器提出了两个出人意料的简单改进:1)在输入端,用输入向量的线性投影替代原有的有限词汇查找表;2)在输出端,将传统的逻辑值(logits)预测(通常映射为类别分布)替换为多元高斯混合模型(multivariate Gaussian mixture model)的参数预测。受图像生成范式 VQ-GAN 和 MaskGIT 的启发——这些方法利用变换器建模 VQ-VAE 的离散潜在序列——我们采用 GIVT 来建模 $β$-VAE 的未量化实值潜在序列。在类别条件图像生成任务中,GIVT 的性能优于 VQ-GAN 及其改进变体,也优于 MaskGIT,且达到了与近期潜在扩散模型相媲美的水平。此外,当将 GIVT 应用于基于 UViM 框架的 VAE 变体进行全景分割(panoptic segmentation)和深度估计任务时,也取得了优异的性能表现,展现了其在图像生成之外领域的强大泛化能力。

代码仓库

google-research/big_vision
官方
jax
GitHub 中提及
shaochenze/ear
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-imagenet-256x256GIVT-Causal-L+A
FID: 2.59
image-generation-on-imagenet-512x512GIVT-Causal-L+A
FID: 2.92

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GIVT:生成式无限词汇变换器 | 论文 | HyperAI超神经