摘要
本研究的目标是从无声视频中重建语音,涵盖说话人相关(speaker-dependent)与说话人无关(speaker-independent)两种情形。与以往大多局限于说话人相关设置的工作不同,本文提出了一种名为“视觉语音记忆”(Visual Voice Memory)的新机制,旨在恢复关键的听觉信息,从而实现对不同说话人,甚至未见过的说话人语音的准确重建。该记忆模块能够接收与输入面部运动相对应的额外听觉信息,并存储可由给定视觉特征所触发的听觉上下文。具体而言,视觉语音记忆包含“值记忆槽”(value memory slots)和“键记忆槽”(key memory slots):其中,值记忆槽用于保存音频特征,而键记忆槽则用于存储与所保存音频特征在相同位置对应的视觉特征。通过引导模型准确地将各类特征存入相应记忆槽,系统能够充分生成高质量语音。因此,我们的方法在训练阶段同时利用视频与音频信息,但在推理阶段无需任何额外的听觉输入。本文的主要贡献如下:(1)提出视觉语音记忆机制,通过融合丰富的音频信息以补充视觉特征,从而实现从无声视频中生成高质量语音;(2)通过记忆音频特征及其对应的视觉特征,实现了多说话人及未见说话人的训练能力。我们在GRID和Lip2Wav两个数据集上对所提出的框架进行了验证,结果表明,该方法在多说话人设置以及说话人无关设置下均优于现有方法。此外,我们还证明了视觉语音记忆中蕴含了对语音重建具有实际意义的信息。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speaker-specific-lip-to-speech-synthesis-on | Visual Voice Memory | ESTOI: 0.579 PESQ: 1.984 STOI: 0.738 |
| speaker-specific-lip-to-speech-synthesis-on-3 | Visual Voice Memory | ESTOI: 0.304 PESQ: 1.362 STOI: 0.463 |
| speaker-specific-lip-to-speech-synthesis-on-4 | Visual Voice Memory | ESTOI: 0.337 PESQ: 1.366 STOI: 0.504 |
| speaker-specific-lip-to-speech-synthesis-on-5 | Visual Voice Memory | ESTOI: 0.402 PESQ: 1.612 STOI: 0.576 |
| speaker-specific-lip-to-speech-synthesis-on-6 | Visual Voice Memory | ESTOI: 0.334 PESQ: 1.503 STOI: 0.506 |
| speaker-specific-lip-to-speech-synthesis-on-7 | Visual Voice Memory | ESTOI: 0.429 PESQ: 1.529 STOI: 0.566 |