8 个月前

多模态表征

音频和语音处理

Shi Bowen ; Hsu Wei-Ning ; Lakhotia Kushal ; Mohamed Abdelrahman

摘要

语音视频记录包含相关的声音和视觉信息，为从说话人的唇部运动和产生的声音中学习语音表示提供了强大的信号。我们引入了音频-视觉隐藏单元BERT（AV-HuBERT），这是一种用于音频-视觉语音的自监督表示学习框架，通过屏蔽多流视频输入并预测自动发现且迭代优化的多模态隐藏单元来实现学习。AV-HuBERT 学习到的强大的音频-视觉语音表示对唇读和自动语音识别均有显著益处。在最大的公开唇读基准数据集LRS3（433小时）上，AV-HuBERT仅使用30小时的标注数据就达到了32.5%的词错误率（WER），优于之前需要一千倍更多转录视频数据（31000小时）训练的最先进方法（33.6%）。当使用LRS3提供的全部433小时标注数据并结合自训练时，唇读的WER进一步降低至26.9%。在同一基准数据集上，利用我们的音频-视觉表示进行纯音频语音识别，相较于当前最先进性能实现了相对40%的WER减少（1.3%对比2.3%）。我们的代码和模型可在 https://github.com/facebookresearch/av_hubert 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

音频和语音处理

Shi Bowen ; Hsu Wei-Ning ; Lakhotia Kushal ; Mohamed Abdelrahman

摘要

语音视频记录包含相关的声音和视觉信息，为从说话人的唇部运动和产生的声音中学习语音表示提供了强大的信号。我们引入了音频-视觉隐藏单元BERT（AV-HuBERT），这是一种用于音频-视觉语音的自监督表示学习框架，通过屏蔽多流视频输入并预测自动发现且迭代优化的多模态隐藏单元来实现学习。AV-HuBERT 学习到的强大的音频-视觉语音表示对唇读和自动语音识别均有显著益处。在最大的公开唇读基准数据集LRS3（433小时）上，AV-HuBERT仅使用30小时的标注数据就达到了32.5%的词错误率（WER），优于之前需要一千倍更多转录视频数据（31000小时）训练的最先进方法（33.6%）。当使用LRS3提供的全部433小时标注数据并结合自训练时，唇读的WER进一步降低至26.9%。在同一基准数据集上，利用我们的音频-视觉表示进行纯音频语音识别，相较于当前最先进性能实现了相对40%的WER减少（1.3%对比2.3%）。我们的代码和模型可在 https://github.com/facebookresearch/av_hubert 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供