4 个月前

为时未晚:将声学信息融合到大型语言模型中以实现自动语音识别

为时未晚:将声学信息融合到大型语言模型中以实现自动语音识别

摘要

近期的研究成功证明了大型语言模型(LLMs)可以有效地用于自动语音识别(ASR)输出上的生成错误校正(GER)。具体而言,LLM 被用来直接从 ASR 系统生成的最佳 N 个假设列表中映射到预测的输出转录。然而,尽管其效果显著,GER 引入了额外的数据不确定性,因为 LLM 在训练过程中并未考虑语音信号中的声学信息。在本研究中,我们旨在通过一种新颖的后期融合解决方案——不确定性感知动态融合(Uncertainty-Aware Dynamic Fusion, UADF)来克服这一限制。UADF 是一种多模态融合方法,集成到自回归解码过程中,并分为两个阶段:(i) 首先分析和校准词元级别的 LLM 决策;(ii) 然后动态地整合来自声学模态的信息。实验结果表明,UADF 在多个 ASR 任务中超越了现有的融合机制。它不仅显著降低了词错误率(WER),还减轻了 LLM 中的数据不确定性问题,并解决了单一模态在融合过程中的泛化能力不足的问题。此外,我们还展示了 UADF 能够无缝适应视听语音识别。

代码仓库

基准测试

基准方法指标
speech-recognition-on-wsj-eval92RobustGER
Word Error Rate (WER): 2.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
为时未晚:将声学信息融合到大型语言模型中以实现自动语音识别 | 论文 | HyperAI超神经