HyperAIHyperAI

Command Palette

Search for a command to run...

文本预训练的语音语言模型

摘要

语音语言模型(Speech Language Models, SpeechLMs)仅处理和生成声学数据,不依赖文本监督信号。在本工作中,我们提出TWIST方法,通过利用预训练文本语言模型进行热启动(warm-start),来训练SpeechLMs。实验结果表明,无论是通过自动评估还是人工评估,TWIST在各项指标上均显著优于冷启动(cold-start)的SpeechLM。我们对不同模型设计选择的影响进行了实证分析,包括语音分词器(speech tokenizer)、预训练文本模型以及训练数据规模等因素。研究发现,模型规模与数据规模均在构建高性能SpeechLMs中发挥着至关重要的作用。基于上述观察,我们构建了目前已知参数量最大、训练数据量最大的SpeechLM模型。此外,我们还引入了两个口语化版本的StoryCloze文本基准测试,以进一步提升模型评估的可靠性,并推动该领域的后续研究发展。相关语音样本、代码及模型均已公开发布,访问地址为:https://pages.cs.huji.ac.il/adiyoss-lab/twist/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供