4 个月前

基于面部特征的多说话人环境下的视听语音增强

基于面部特征的多说话人环境下的视听语音增强

摘要

本文探讨了在鸡尾酒会场景中,当可获取目标说话人的视觉信息时,如何增强该说话人的语音问题。与大多数先前的研究不同,我们并未在通常规模较小的视听数据集上学习视觉特征,而是使用了一个已经在独立图像数据集上训练好的面部标志检测器。这些标志由基于LSTM的模型用于生成时间频率掩模,然后将其应用于混合语音的声谱图。研究结果表明:(i) 面部标志运动特征对于此任务非常有效;(ii) 与以往的工作类似,通过掩模介导的目标说话人声谱图重建显著比直接声谱图重建更准确;(iii) 最佳掩模依赖于运动标志特征和输入的混合语音声谱图。据我们所知,我们提出的模型是在有限规模的GRID和TCD-TIMIT数据集上训练和评估的第一个实现多说话人环境中说话人无关语音增强的模型。

代码仓库

基准测试

基准方法指标
speech-enhancement-on-grid-corpus-mixedAudio-Visual concat-ref
PESQ: 2.70
speech-enhancement-on-tcd-timit-corpus-mixedAudio-Visual concat-ref
PESQ: 3.03
speech-separation-on-grid-corpus-mixed-speechAudio-Visual concat-ref
SDR: 8.05
speech-separation-on-tcd-timit-corpus-mixedAudio-Visual concat-ref
SDR: 10.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于面部特征的多说话人环境下的视听语音增强 | 论文 | HyperAI超神经