4 个月前

ReVISE:基于视觉输入的自监督语音重合成以实现通用和泛化的语音增强

ReVISE:基于视觉输入的自监督语音重合成以实现通用和泛化的语音增强

摘要

先前关于利用视觉输入改善语音质量的研究通常分别探讨每种听觉失真类型(例如,分离、修复、视频转语音),并提出定制算法。本文旨在统一这些研究主题,探讨广义语音增强问题,其目标不是重建精确的参考干净信号,而是专注于改善语音的某些方面。具体而言,本文关注的是可懂度、质量和视频同步。我们将该问题视为音视频语音重合成,该过程包括两个步骤:伪音视频语音识别(P-AVSR)和伪文本到语音合成(P-TTS)。P-AVSR 和 P-TTS 通过从自监督语音模型中提取的离散单元连接起来。此外,我们利用自监督音视频语音模型来初始化 P-AVSR。所提出的模型被命名为 ReVISE。ReVISE 是首个高质量的野外视频转语音合成模型,并在所有 LRS3 音视频增强任务中以单一模型实现了卓越性能。为了证明其在现实世界中的适用性,ReVISE 还在 EasyCom 数据集上进行了评估,该数据集是在具有挑战性的声学条件下收集的音视频基准测试数据集,仅包含 1.6 小时的训练数据。同样地,ReVISE 在该数据集上显著抑制了噪声并提高了质量。项目页面:https://wnhsu.github.io/ReVISE。

基准测试

基准方法指标
speech-enhancement-on-easycomReVISE (ch2)
Audio Quality MOS: 4.19
speech-enhancement-on-easycomDemucs (bf)
Audio Quality MOS: 2.39
speech-enhancement-on-easycomReVISE (bf)
Audio Quality MOS: 4.11
speech-enhancement-on-easycomDemucs (ch2)
Audio Quality MOS: 2.95
speech-recognition-on-easycomDemucs (bf)
WER (%): 69.8
speech-recognition-on-easycomReVISE (ch2)
WER (%): 55.0
speech-recognition-on-easycomReVISE (bf)
WER (%): 52.1
speech-recognition-on-easycomDemucs (ch2)
WER (%): 86.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ReVISE:基于视觉输入的自监督语音重合成以实现通用和泛化的语音增强 | 论文 | HyperAI超神经