4 个月前

统一语音识别:单一模型处理听觉、视觉及视听觉输入

统一语音识别:单一模型处理听觉、视觉及视听觉输入

摘要

在听觉、视觉和视听语音识别(分别简称ASR、VSR和AVSR)领域的研究传统上是独立进行的。即使最近的一些自监督研究尝试同时解决两个或所有三个任务,通常也会产生独立的模型,导致推理管道分离,增加了内存需求并产生了冗余。本文提出了一种统一的训练策略来整合这些系统。我们证明了为所有三个任务训练单个模型可以提升VSR和AVSR的性能,克服从零开始训练时常见的优化难题。此外,我们引入了一种贪婪伪标签方法,以更有效地利用未标记样本,解决了相关自监督方法中的不足。最后,我们在框架内开发了一种自监督预训练方法,并证明了其在半监督方法中的有效性。尽管使用单个模型处理所有任务,我们的统一方法在LRS3和LRS2数据集上的ASR、VSR和AVSR任务以及新发布的WildVSR数据集上均达到了与近期方法相当的最先进性能。代码和模型可在https://github.com/ahaliassos/usr获取。

代码仓库

ahaliassos/usr
官方
pytorch

基准测试

基准方法指标
lipreading-on-lrs2USR
Word Error Rate (WER): 15.4
lipreading-on-lrs3-tedUSR (self + semi-supervised)
Word Error Rate (WER): 21.5
lipreading-on-lrs3-tedUSR (self-supervised)
Word Error Rate (WER): 22.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
统一语音识别:单一模型处理听觉、视觉及视听觉输入 | 论文 | HyperAI超神经