
摘要
在本工作中,我们重新思考了在非受限真实环境下的语音增强任务。当前最先进的方法仅依赖音频流,在面对各种真实场景噪声时性能受限。近期一些利用唇部运动作为附加线索的方法,在生成语音质量上优于“仅音频”方法。然而,这些方法在视觉流不可靠或完全缺失的应用场景中无法使用。为此,我们提出了一种新的语音增强范式,借助语音驱动唇部合成领域的最新进展。我们采用一个此类模型作为教师网络,训练一个鲁棒的学生网络,使其生成准确的唇部运动,以“掩蔽”噪声,从而起到“视觉噪声滤波器”的作用。我们所提出的伪唇部方法所增强语音的可理解性,与使用真实唇部的情况相比差异小于3%,表明即使在缺乏真实视频流的情况下,也能有效利用唇部运动的优势。我们通过定量指标与人工评估对模型进行了严格评测。此外,消融实验以及我们网站上提供的演示视频,通过定性对比和结果展示,清晰地验证了该方法的有效性。我们已在网站上提供演示视频,直观呈现所提方法的效果:\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}。同时,代码与模型也已开源,以支持后续研究:\url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}。
代码仓库
Sindhu-Hegde/pseudo-visual-speech-denoising
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-denoising-on-lrs2-vggsound | - | CBAK: 2.41 COVL: 2.15 CSIG: 3.16 PESQ: 2.71 STOI: 0.87 |
| speech-denoising-on-lrs3-vggsound | - | CBAK: 2.47 COVL: 2.25 CSIG: 3.18 PESQ: 2.72 STOI: 0.88 |