
摘要
唇读是指从说话者口型运动中解码文字的任务。传统方法将这一问题分为两个阶段:设计或学习视觉特征,以及预测。近年来,深度唇读方法实现了端到端的可训练性(Wand等人,2016;Chung和Zisserman,2016a)。然而,现有的端到端训练模型仅能进行单词分类,而不能进行句子级别的序列预测。研究表明,人类唇读性能随着单词长度的增加而提高(Easton和Basala,1982),这表明在模糊的通信渠道中,捕捉时间上下文的特征非常重要。受此观察的启发,我们提出了LipNet模型,该模型将可变长度的视频帧序列映射为文本,利用时空卷积、循环网络和连接时序分类损失函数,并且完全以端到端的方式进行训练。据我们所知,LipNet是首个能够同时学习时空视觉特征和序列模型的端到端句子级别唇读模型。在GRID语料库上,LipNet在句子级别的重叠说话者分割任务中达到了95.2%的准确率,超过了经验丰富的唇读专家和之前86.4%的单词级别最先进准确率(Gergen等人,2016)。
代码仓库
pjenpoomjai/LipNet
tf
GitHub 中提及
speech-separation-hse/video-features
pytorch
GitHub 中提及
sailordiary/LipNet-PyTorch
pytorch
GitHub 中提及
ski-net/lipnet
mxnet
GitHub 中提及
Abishalini/LipReadingGUI
GitHub 中提及
Fengdalu/LipNet-PyTorch
pytorch
GitHub 中提及
hero9968/lipnet-python
tf
GitHub 中提及
ms8909/LipONet
tf
GitHub 中提及
rizkiarm/LipNet
官方
tf
GitHub 中提及
LiZhenghua0311/lip
tf
GitHub 中提及
SohaibAnwaar/lip-Reading-by-Deep-learning
tf
GitHub 中提及
PlatDrake2875/LipNet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| lipreading-on-grid-corpus-mixed-speech | LipNet | Word Error Rate (WER): 4.6 |