3 个月前

语言模型超越扩散模型——分词器是视觉生成的关键

语言模型超越扩散模型——分词器是视觉生成的关键

摘要

尽管大型语言模型(LLMs)在自然语言生成任务中占据主导地位,但在图像与视频生成方面,其表现仍不及扩散模型(diffusion models)。为了有效利用LLMs进行视觉内容生成,一个关键组件是视觉分词器(visual tokenizer),其功能是将像素空间的输入映射为适合LLM学习的离散令牌(tokens)。本文提出了一种名为MAGVIT-v2的视频分词器,该分词器采用统一的令牌词汇表,能够为图像和视频生成简洁且富有表现力的离散令牌。借助这一新型分词器,我们验证了LLMs在ImageNet和Kinetics等标准图像与视频生成基准测试中,性能超越了扩散模型。此外,我们进一步证明,该分词器在两项额外任务上也优于此前表现最佳的视频分词器:(1)在人类评估中,其视频压缩效果可与下一代视频编码标准(VCC)相媲美;(2)在动作识别任务中,能够学习到具有高度有效性的视觉表征。

代码仓库

基准测试

基准方法指标
image-generation-on-imagenet-256x256MAGVIT-v2 (w/o guidance)
FID: 3.65
image-generation-on-imagenet-256x256MAGVIT-v2
FID: 1.78
image-generation-on-imagenet-512x512MAGVIT-v2 (w/o guidance)
FID: 3.07
Inception score: 213.1
image-generation-on-imagenet-512x512MAGVIT-v2
FID: 1.91
Inception score: 324.3
video-generation-on-kinetics-600-12-framesMAGVIT-v2
FVD: 4.3±0.1
video-generation-on-ucf-101MAGVIT-v2
FVD16: 58±3
video-generation-on-ucf-101MAGVIT-v2 (AR)
FVD16: 109
video-prediction-on-kinetics-600-12-framesMAGVIT-v2
FVD: 4.3±0.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言模型超越扩散模型——分词器是视觉生成的关键 | 论文 | HyperAI超神经