3 个月前

Spirit LM:交错式语音与文本语言模型

Spirit LM:交错式语音与文本语言模型

摘要

我们提出 Spirit LM,一种基础性的多模态语言模型,能够自由混合文本与语音。该模型基于一个 70 亿参数的预训练文本语言模型,并通过在文本与语音单元上持续训练,将其扩展至语音模态。语音与文本序列被拼接为单一的标记流,并采用一种基于词级交错的训练方法,使用一个小型自动构建的语音-文本平行语料库进行训练。Spirit LM 提供两个版本:基础版(Base)使用语音音素单元(HuBERT),而增强版(Expressive)在音素单元的基础上,额外引入音高(pitch)与风格(style)单元以建模语音的表达性。两个版本均使用子词 BPE 标记对文本进行编码。所得到的模型兼具文本模型的语义理解能力与语音模型的表达能力。此外,我们验证了 Spirit LM 能够在跨模态场景下以少量示例(few-shot)方式学习新任务,例如自动语音识别(ASR)、文本转语音(TTS)以及语音分类。我们已公开模型权重与推理代码。

代码仓库

facebookresearch/spiritlm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-2000-hub5-englishMMLU
10-stage average accuracy: 10
language-modelling-on-salmonSpirit-LM (Expr.)
Background (Domain) Consistency: 55.0
Background (Random) Consistency: 64.0
Background Alignment: 59.5
Gender Consistency: 85.0
Room Consistency: 54.5
Sentiment Alignment: 52.0
Sentiment Consistency: 73.5
Speaker Consistency: 81.0
language-modelling-on-salmonSpirit-LM (base)
Background (Domain) Consistency: 53.5
Background (Random) Consistency: 55.5
Background Alignment: 51.5
Gender Consistency: 67.0
Room Consistency: 54.5
Sentiment Alignment: 48.0
Sentiment Consistency: 54.5
Speaker Consistency: 69.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Spirit LM:交错式语音与文本语言模型 | 论文 | HyperAI超神经