4 个月前

Whisper-Flamingo:将视觉特征整合到Whisper中以实现视听语音识别和翻译

Whisper-Flamingo:将视觉特征整合到Whisper中以实现视听语音识别和翻译

摘要

音视频语音识别(AVSR)利用基于唇部的视频来提高在噪声环境中的性能。由于视频比音频更难以获取,AVSR模型的视频训练数据通常仅限于几千小时。相比之下,诸如Whisper之类的语音模型则使用数十万小时的数据进行训练,因此能够学习到更好的语音转文本解码器。巨大的训练数据差异促使我们将Whisper适应为能够处理视频输入的模型。受Flamingo启发,该模型通过门控交叉注意力机制将视觉特征注入语言模型中,我们提出了Whisper-Flamingo,它将视觉特征整合到Whisper语音识别和翻译模型中。我们的模型在LRS3数据集上实现了最先进的自动语音识别(ASR)词错误率(0.68%)和音视频语音识别(AVSR)词错误率(0.76%),在LRS2数据集上也达到了最佳的ASR词错误率(1.3%)和AVSR词错误率(1.4%)。在噪声条件下,音视频Whisper-Flamingo在英语语音识别和六种语言的英-外翻译任务中均优于仅使用音频的Whisper。此外,Whisper-Flamingo具有多功能性,可以使用同一组参数完成所有这些任务,而先前的方法则需要针对每种语言分别进行训练。

代码仓库

roudimit/whisper-flamingo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs2Whisper-Flamingo
Test WER: 1.4
audio-visual-speech-recognition-on-lrs3-tedWhisper-Flamingo
Word Error Rate (WER): 0.76
automatic-speech-recognition-on-lrs2Whisper
Test WER: 1.3
speech-recognition-on-lrs3-tedWhisper
Word Error Rate (WER): 0.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Whisper-Flamingo:将视觉特征整合到Whisper中以实现视听语音识别和翻译 | 论文 | HyperAI超神经