4 个月前

使用多头视听记忆区分同音异义词以改善唇读效果

使用多头视听记忆区分同音异义词以改善唇读效果

摘要

从无声唇部动作中识别语音,即唇读,是一项具有挑战性的任务,原因在于:1)唇部动作本身所包含的信息不足以完全表示语音;2)存在同音异形词(homophenes),这些词语虽然发音不同但唇部动作相似。在本文中,我们通过提出一种多头视听记忆模型(Multi-head Visual-audio Memory, MVM)来缓解上述两个挑战。首先,MVM 使用音视频数据集进行训练,并通过建模配对的音视频表示之间的相互关系来记住音频表示。在推理阶段,仅凭视觉输入即可通过检查已学习的相互关系从记忆中提取保存的音频表示。因此,唇读模型可以通过提取的音频表示来补充不足的视觉信息。其次,MVM 包含多个用于保存视觉特征的多头键记忆和一个用于保存音频知识的价值记忆,这一设计旨在区分同音异形词。借助多头键记忆,MVM 可以从记忆中提取可能的候选音频特征,从而使唇读模型能够考虑输入唇部动作可以代表哪些发音的可能性。这也可以视为显式实现视素到音素的一对多映射(viseme-to-phoneme)。此外,MVM 在多个时间尺度上被应用,以便在检索记忆时考虑上下文并区分同音异形词。大量的实验结果验证了所提方法在唇读和区分同音异形词方面的有效性。

基准测试

基准方法指标
lipreading-on-lip-reading-in-the-wild3D Conv + ResNet-18 + MS-TCN + Multi-Head Visual-Audio Memory
Top-1 Accuracy: 88.5
lipreading-on-lrs2Multi-head Visual-Audio Memory
Word Error Rate (WER): 44.5
lipreading-on-lrw-10003D Conv + ResNet-18 + MS-TCN + Multi-Head Visual-Audio Memory
Top-1 Accuracy: 53.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用多头视听记忆区分同音异义词以改善唇读效果 | 论文 | HyperAI超神经