8 个月前

音频和语音处理

多任务学习

Yicheng Du Aditya Arie Nugraha Kouhei Sekiguchi Yoshiaki Bando Mathieu Fontaine Kazuyoshi Yoshii

摘要

本文描述了一种用于增强现实头戴设备的嘈杂语音识别技术，该设备旨在帮助在真实的多方对话环境中进行口头交流。目前在模拟环境中积极研究的主要方法是基于深度神经网络（DNN）的监督训练，顺序执行语音增强和自动语音识别（ASR）。然而，在我们的任务中，由于训练条件与测试条件之间的不匹配以及用户的头部运动，预先训练的系统无法正常工作。为了仅增强目标说话人的语音，我们使用了基于DNN的语音掩模估计器的波束形成技术，该技术可以自适应地提取相对于头部特定方向的语音成分。我们提出了一种半监督自适应方法，在运行时联合更新掩模估计器和ASR模型，利用带有真实转录的干净语音信号和带有高置信度估计转录的嘈杂语音信号。与最先进的远场语音识别系统相比，实验结果表明所提出的方法显著提高了ASR性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

多任务学习

Yicheng Du Aditya Arie Nugraha Kouhei Sekiguchi Yoshiaki Bando Mathieu Fontaine Kazuyoshi Yoshii

摘要

本文描述了一种用于增强现实头戴设备的嘈杂语音识别技术，该设备旨在帮助在真实的多方对话环境中进行口头交流。目前在模拟环境中积极研究的主要方法是基于深度神经网络（DNN）的监督训练，顺序执行语音增强和自动语音识别（ASR）。然而，在我们的任务中，由于训练条件与测试条件之间的不匹配以及用户的头部运动，预先训练的系统无法正常工作。为了仅增强目标说话人的语音，我们使用了基于DNN的语音掩模估计器的波束形成技术，该技术可以自适应地提取相对于头部特定方向的语音成分。我们提出了一种半监督自适应方法，在运行时联合更新掩模估计器和ASR模型，利用带有真实转录的干净语音信号和带有高置信度估计转录的嘈杂语音信号。与最先进的远场语音识别系统相比，实验结果表明所提出的方法显著提高了ASR性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供