Tu Anh NguyenBenjamin MullerBokai YuMarta R. Costa-jussaMaha ElbayadSravya PopuriChristophe RopersPaul-Ambroise DuquenneRobin AlgayresRuslan MavlyutovItai GatMary WilliamsonGabriel SynnaeveJuan PinoBenoit SagotEmmanuel Dupoux

摘要
我们提出 Spirit LM,一种基础性的多模态语言模型,能够自由混合文本与语音。该模型基于一个 70 亿参数的预训练文本语言模型,并通过在文本与语音单元上持续训练,将其扩展至语音模态。语音与文本序列被拼接为单一的标记流,并采用一种基于词级交错的训练方法,使用一个小型自动构建的语音-文本平行语料库进行训练。Spirit LM 提供两个版本:基础版(Base)使用语音音素单元(HuBERT),而增强版(Expressive)在音素单元的基础上,额外引入音高(pitch)与风格(style)单元以建模语音的表达性。两个版本均使用子词 BPE 标记对文本进行编码。所得到的模型兼具文本模型的语义理解能力与语音模型的表达能力。此外,我们验证了 Spirit LM 能够在跨模态场景下以少量示例(few-shot)方式学习新任务,例如自动语音识别(ASR)、文本转语音(TTS)以及语音分类。我们已公开模型权重与推理代码。
代码仓库
facebookresearch/spiritlm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-2000-hub5-english | MMLU | 10-stage average accuracy: 10 |
| language-modelling-on-salmon | Spirit-LM (Expr.) | Background (Domain) Consistency: 55.0 Background (Random) Consistency: 64.0 Background Alignment: 59.5 Gender Consistency: 85.0 Room Consistency: 54.5 Sentiment Alignment: 52.0 Sentiment Consistency: 73.5 Speaker Consistency: 81.0 |
| language-modelling-on-salmon | Spirit-LM (base) | Background (Domain) Consistency: 53.5 Background (Random) Consistency: 55.5 Background Alignment: 51.5 Gender Consistency: 67.0 Room Consistency: 54.5 Sentiment Alignment: 48.0 Sentiment Consistency: 54.5 Speaker Consistency: 69.5 |