Ye BaiJingping ChenJitong ChenWei ChenZhuo ChenChuang DingLinhao DongQianqian DongYujiao DuKepan GaoLu GaoYi GuoMinglun HanTing HanWenchao HuXinying HuYuxiang HuDeyu HuaLu HuangMingkun HuangYoujia HuangJishuo JinFanliu KongZongwei LanTianyu LiXiaoyang LiZeyang LiZehua LinRui LiuShouda LiuLu LuYizhou LuJingting MaShengtao MaYulin PeiChen ShenTian TanXiaogang TianMing TuBo WangHao WangYuping WangYuxuan WangHanzhang XiaRui XiaShuangyi XieHongmin XuMeng YangBihong ZhangJun ZhangWanyi ZhangYang ZhangYawei ZhangYijie ZhengMing Zou

摘要
现代自动语音识别(ASR)模型需在不同应用场景下,基于特定上下文信息,准确转录来自多种领域、语言及口音的多样化语音信号。传统的端到端模型虽通过融合外部语言模型取得了良好效果,但主要局限于数据匹配场景,性能提升已逐渐接近瓶颈。本文提出Seed-ASR,一种基于大语言模型(LLM)的语音识别框架。Seed-ASR基于音频条件大语言模型(AcLLM)架构,通过将连续的语音表征与上下文信息一同输入LLM,充分发挥大语言模型在语义理解与上下文建模方面的优势。经过分阶段的大规模训练,并有效激发LLM的上下文感知能力,Seed-ASR在涵盖多领域、多口音/方言及多语言的综合评估集上,显著优于传统端到端模型。此外,Seed-ASR可直接部署于各类具体应用场景中,无需额外依赖语言模型即可满足特定需求。相较于近期发布的大型ASR模型,Seed-ASR在中英文公开测试集上分别实现了10%至40%的词错误率(中文为字符错误率)降低,充分展现了其卓越的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-aishell-1 | Seed-ASR | Word Error Rate (WER): 0.68 |