3 个月前

ES3:面向鲁棒音视频语音表征的进化自监督学习

ES3:面向鲁棒音视频语音表征的进化自监督学习

摘要

我们提出了一种名为ES3的新型自监督学习策略,用于从无标注的说话人脸视频中学习鲁棒的音视频语音表征。尽管近期许多方法主要依赖音频模态单独引导学习过程,以捕捉音频与视频之间的共享信息,但我们重新定义了该问题,旨在获取共享信息、模态特有信息(即各模态独有的语音信息)以及协同信息(synergistic information),从而解决音视频模态之间固有的不对称性问题。基于这一新范式,我们提出了一种新颖的“渐进式”(evolving)学习策略,逐步构建在单模态(音频与视觉)和双模态(音视频融合)语音任务上均表现优异的联合音视频语音表征。首先,利用相对更易学习的音频模态,通过捕获音频特有信息与共享语音信息,初始化音频与视觉表征;其次,引入视觉模态特有的语音信息,并在此前获得的共享知识基础上,对音视频联合表征进行自举(bootstrap)优化;最后,最大化包含协同信息在内的总音视频语音信息量,从而获得鲁棒且全面的表征。我们将ES3实现为一种简洁的Siamese网络框架。在英文基准数据集及新发布的大型中文语音数据集上的实验结果验证了该方法的有效性。特别地,在LRS2-BBC数据集上,我们最小的模型在仅使用1/2参数量和1/8未标注数据(223小时)的情况下,性能已达到当前最先进(SoTA)模型的水平。

基准测试

基准方法指标
audio-visual-speech-recognition-on-cas-vsrES³ Base*
Word Error Rate (WER): 11.0
lipreading-on-cas-vsr-s101ES³ Base*
Word Error Rate (WER): 55.6
lipreading-on-lrs2ES³ Large
Word Error Rate (WER): 26.7
lipreading-on-lrs2ES³ Base*
Word Error Rate (WER): 31.4
lipreading-on-lrs2ES³ Large + extLM
Word Error Rate (WER): 24.6
lipreading-on-lrs2ES³ Base + extLM
Word Error Rate (WER): 28.7
lipreading-on-lrs2ES³ Base* + extLM
Word Error Rate (WER): 29.3
lipreading-on-lrs2ES³ Base
Word Error Rate (WER): 30.7
lipreading-on-lrs3-tedES³ Large
Word Error Rate (WER): 37.1
lipreading-on-lrs3-tedES³ Base
Word Error Rate (WER): 40.3
speech-recognition-on-cas-vsr-s101ES³ Base*
Word Error Rate (WER): 11.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ES3:面向鲁棒音视频语音表征的进化自监督学习 | 论文 | HyperAI超神经