8 个月前

音频和语音处理

多模态表征

Andrew Rouditchenko Yuan Gong Samuel Thomas Leonid Karlinsky Hilde Kuehne Rogerio Feris James Glass

摘要

音视频语音识别（AVSR）利用基于唇部的视频来提高在噪声环境中的性能。由于视频比音频更难以获取，AVSR模型的视频训练数据通常仅限于几千小时。相比之下，诸如Whisper之类的语音模型则使用数十万小时的数据进行训练，因此能够学习到更好的语音转文本解码器。巨大的训练数据差异促使我们将Whisper适应为能够处理视频输入的模型。受Flamingo启发，该模型通过门控交叉注意力机制将视觉特征注入语言模型中，我们提出了Whisper-Flamingo，它将视觉特征整合到Whisper语音识别和翻译模型中。我们的模型在LRS3数据集上实现了最先进的自动语音识别（ASR）词错误率（0.68%）和音视频语音识别（AVSR）词错误率（0.76%），在LRS2数据集上也达到了最佳的ASR词错误率（1.3%）和AVSR词错误率（1.4%）。在噪声条件下，音视频Whisper-Flamingo在英语语音识别和六种语言的英-外翻译任务中均优于仅使用音频的Whisper。此外，Whisper-Flamingo具有多功能性，可以使用同一组参数完成所有这些任务，而先前的方法则需要针对每种语言分别进行训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

多模态表征

Andrew Rouditchenko Yuan Gong Samuel Thomas Leonid Karlinsky Hilde Kuehne Rogerio Feris James Glass

摘要

音视频语音识别（AVSR）利用基于唇部的视频来提高在噪声环境中的性能。由于视频比音频更难以获取，AVSR模型的视频训练数据通常仅限于几千小时。相比之下，诸如Whisper之类的语音模型则使用数十万小时的数据进行训练，因此能够学习到更好的语音转文本解码器。巨大的训练数据差异促使我们将Whisper适应为能够处理视频输入的模型。受Flamingo启发，该模型通过门控交叉注意力机制将视觉特征注入语言模型中，我们提出了Whisper-Flamingo，它将视觉特征整合到Whisper语音识别和翻译模型中。我们的模型在LRS3数据集上实现了最先进的自动语音识别（ASR）词错误率（0.68%）和音视频语音识别（AVSR）词错误率（0.76%），在LRS2数据集上也达到了最佳的ASR词错误率（1.3%）和AVSR词错误率（1.4%）。在噪声条件下，音视频Whisper-Flamingo在英语语音识别和六种语言的英-外翻译任务中均优于仅使用音频的Whisper。此外，Whisper-Flamingo具有多功能性，可以使用同一组参数完成所有这些任务，而先前的方法则需要针对每种语言分别进行训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供