3 个月前

基于大语言模型与任务激活提示的生成式语音识别错误纠正

基于大语言模型与任务激活提示的生成式语音识别错误纠正

摘要

我们探讨了大规模语言模型(LLMs)作为语音识别后处理模块的能力,即执行重评分(rescoring)与错误纠正任务。首先,我们聚焦于指令提示(instruction prompting)方法,使LLM在无需微调的情况下完成上述任务。为此,我们评估了多种提示策略,包括零样本(zero-shot)和少样本(few-shot)上下文学习,并提出了一种新颖的“任务激活提示”(task activation prompting)方法,该方法结合因果性指令与示例演示,以提升模型在长上下文窗口下的表现能力。随后,我们证明了仅通过上下文学习(in-context learning)方式对冻结的LLM进行重评分,即可在两个非领域任务(ATIS与WSJ)上取得与领域微调语言模型(domain-tuned LMs)相当甚至更优的性能,所使用的初始识别系统为预训练的一阶段语音识别模型。进一步地,通过将提示技术与微调相结合,我们实现了低于N-best最优基准(N-best oracle)的错误率,充分展示了LLM强大的泛化能力。

基准测试

基准方法指标
speech-recognition-on-wsj-eval92Task activating prompting generative correction
Word Error Rate (WER): 2.11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供