3 个月前

Seed-ASR:基于LLM的语音识别理解多样化的语音与上下文

Seed-ASR:基于LLM的语音识别理解多样化的语音与上下文

摘要

现代自动语音识别(ASR)模型需在不同应用场景下,基于特定上下文信息,准确转录来自多种领域、语言及口音的多样化语音信号。传统的端到端模型虽通过融合外部语言模型取得了良好效果,但主要局限于数据匹配场景,性能提升已逐渐接近瓶颈。本文提出Seed-ASR,一种基于大语言模型(LLM)的语音识别框架。Seed-ASR基于音频条件大语言模型(AcLLM)架构,通过将连续的语音表征与上下文信息一同输入LLM,充分发挥大语言模型在语义理解与上下文建模方面的优势。经过分阶段的大规模训练,并有效激发LLM的上下文感知能力,Seed-ASR在涵盖多领域、多口音/方言及多语言的综合评估集上,显著优于传统端到端模型。此外,Seed-ASR可直接部署于各类具体应用场景中,无需额外依赖语言模型即可满足特定需求。相较于近期发布的大型ASR模型,Seed-ASR在中英文公开测试集上分别实现了10%至40%的词错误率(中文为字符错误率)降低,充分展现了其卓越的性能表现。

基准测试

基准方法指标
speech-recognition-on-aishell-1Seed-ASR
Word Error Rate (WER): 0.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Seed-ASR:基于LLM的语音识别理解多样化的语音与上下文 | 论文 | HyperAI超神经