
摘要
自监督表征学习近年来在音频与视觉模态中均引起了广泛关注。然而,大多数现有研究通常仅聚焦于单一模态或特定特征,针对两种模态之间交互关系以学习自监督表征的工作仍十分有限。本文提出了一种在音视频语音语境下,以视觉模态引导音频表征学习的框架。我们采用一种生成式音频到视频的训练策略:给定一段音频片段,通过该音频驱动一个静态图像的动画生成,并优化生成的视频,使其尽可能接近真实语音片段对应的视频。在此过程中,音频编码网络能够学习到具有实际意义的语音表征,我们将其在情感识别与语音识别任务上进行了评估。实验结果表明,该方法在情感识别任务上达到了当前最优性能,在语音识别任务上也取得了具有竞争力的结果。这充分展示了利用视觉监督来学习音频表征的潜力,为自监督学习提供了一种此前尚未充分探索的新范式。所提出的无监督音频特征能够利用几乎无限量的未标注音视频语音数据进行训练,具有广泛而前景广阔的应用潜力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-emotion-recognition-on-crema-d | GRU | Accuracy: 55.01 |