3 个月前

视觉引导的自监督语音表征学习

视觉引导的自监督语音表征学习

摘要

自监督表征学习近年来在音频与视觉模态中均引起了广泛关注。然而,大多数现有研究通常仅聚焦于单一模态或特定特征,针对两种模态之间交互关系以学习自监督表征的工作仍十分有限。本文提出了一种在音视频语音语境下,以视觉模态引导音频表征学习的框架。我们采用一种生成式音频到视频的训练策略:给定一段音频片段,通过该音频驱动一个静态图像的动画生成,并优化生成的视频,使其尽可能接近真实语音片段对应的视频。在此过程中,音频编码网络能够学习到具有实际意义的语音表征,我们将其在情感识别与语音识别任务上进行了评估。实验结果表明,该方法在情感识别任务上达到了当前最优性能,在语音识别任务上也取得了具有竞争力的结果。这充分展示了利用视觉监督来学习音频表征的潜力,为自监督学习提供了一种此前尚未充分探索的新范式。所提出的无监督音频特征能够利用几乎无限量的未标注音视频语音数据进行训练,具有广泛而前景广阔的应用潜力。

基准测试

基准方法指标
speech-emotion-recognition-on-crema-dGRU
Accuracy: 55.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉引导的自监督语音表征学习 | 论文 | HyperAI超神经