4 个月前

面向方向的神经语音增强与识别在真实多方对话环境中的联合自适应

面向方向的神经语音增强与识别在真实多方对话环境中的联合自适应

摘要

本文描述了一种用于增强现实头戴设备的嘈杂语音识别技术,该设备旨在帮助在真实的多方对话环境中进行口头交流。目前在模拟环境中积极研究的主要方法是基于深度神经网络(DNN)的监督训练,顺序执行语音增强和自动语音识别(ASR)。然而,在我们的任务中,由于训练条件与测试条件之间的不匹配以及用户的头部运动,预先训练的系统无法正常工作。为了仅增强目标说话人的语音,我们使用了基于DNN的语音掩模估计器的波束形成技术,该技术可以自适应地提取相对于头部特定方向的语音成分。我们提出了一种半监督自适应方法,在运行时联合更新掩模估计器和ASR模型,利用带有真实转录的干净语音信号和带有高置信度估计转录的嘈杂语音信号。与最先进的远场语音识别系统相比,实验结果表明所提出的方法显著提高了ASR性能。

基准测试

基准方法指标
speech-enhancement-on-easycomDAJA (MVDR,HMA,1000) (Overlapped Speech)
SDR: -4.76
speech-recognition-on-easycomDAJA (MVDR,HMA,1000) (Overlapped Speech)
WER (%): 62.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向方向的神经语音增强与识别在真实多方对话环境中的联合自适应 | 论文 | HyperAI超神经