6 个月前

音频和语音处理

Ye Bai Jingping Chen Jitong Chen Wei Chen Zhuo Chen Chuang Ding Linhao Dong Qianqian Dong Yujiao Du Kepan Gao

摘要

现代自动语音识别（ASR）模型需在不同应用场景下，基于特定上下文信息，准确转录来自多种领域、语言及口音的多样化语音信号。传统的端到端模型虽通过融合外部语言模型取得了良好效果，但主要局限于数据匹配场景，性能提升已逐渐接近瓶颈。本文提出Seed-ASR，一种基于大语言模型（LLM）的语音识别框架。Seed-ASR基于音频条件大语言模型（AcLLM）架构，通过将连续的语音表征与上下文信息一同输入LLM，充分发挥大语言模型在语义理解与上下文建模方面的优势。经过分阶段的大规模训练，并有效激发LLM的上下文感知能力，Seed-ASR在涵盖多领域、多口音/方言及多语言的综合评估集上，显著优于传统端到端模型。此外，Seed-ASR可直接部署于各类具体应用场景中，无需额外依赖语言模型即可满足特定需求。相较于近期发布的大型ASR模型，Seed-ASR在中英文公开测试集上分别实现了10%至40%的词错误率（中文为字符错误率）降低，充分展现了其卓越的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Ye Bai Jingping Chen Jitong Chen Wei Chen Zhuo Chen Chuang Ding Linhao Dong Qianqian Dong Yujiao Du Kepan Gao

摘要

现代自动语音识别（ASR）模型需在不同应用场景下，基于特定上下文信息，准确转录来自多种领域、语言及口音的多样化语音信号。传统的端到端模型虽通过融合外部语言模型取得了良好效果，但主要局限于数据匹配场景，性能提升已逐渐接近瓶颈。本文提出Seed-ASR，一种基于大语言模型（LLM）的语音识别框架。Seed-ASR基于音频条件大语言模型（AcLLM）架构，通过将连续的语音表征与上下文信息一同输入LLM，充分发挥大语言模型在语义理解与上下文建模方面的优势。经过分阶段的大规模训练，并有效激发LLM的上下文感知能力，Seed-ASR在涵盖多领域、多口音/方言及多语言的综合评估集上，显著优于传统端到端模型。此外，Seed-ASR可直接部署于各类具体应用场景中，无需额外依赖语言模型即可满足特定需求。相较于近期发布的大型ASR模型，Seed-ASR在中英文公开测试集上分别实现了10%至40%的词错误率（中文为字符错误率）降低，充分展现了其卓越的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Seed-ASR：基于LLM的语音识别理解多样化的语音与上下文 | 论文 | HyperAI超神经