4 个月前

LipNet:端到端的句子级唇读模型

LipNet:端到端的句子级唇读模型

摘要

唇读是指从说话者口型运动中解码文字的任务。传统方法将这一问题分为两个阶段:设计或学习视觉特征,以及预测。近年来,深度唇读方法实现了端到端的可训练性(Wand等人,2016;Chung和Zisserman,2016a)。然而,现有的端到端训练模型仅能进行单词分类,而不能进行句子级别的序列预测。研究表明,人类唇读性能随着单词长度的增加而提高(Easton和Basala,1982),这表明在模糊的通信渠道中,捕捉时间上下文的特征非常重要。受此观察的启发,我们提出了LipNet模型,该模型将可变长度的视频帧序列映射为文本,利用时空卷积、循环网络和连接时序分类损失函数,并且完全以端到端的方式进行训练。据我们所知,LipNet是首个能够同时学习时空视觉特征和序列模型的端到端句子级别唇读模型。在GRID语料库上,LipNet在句子级别的重叠说话者分割任务中达到了95.2%的准确率,超过了经验丰富的唇读专家和之前86.4%的单词级别最先进准确率(Gergen等人,2016)。

代码仓库

pjenpoomjai/LipNet
tf
GitHub 中提及
sailordiary/LipNet-PyTorch
pytorch
GitHub 中提及
ski-net/lipnet
mxnet
GitHub 中提及
Abishalini/LipReadingGUI
GitHub 中提及
Fengdalu/LipNet-PyTorch
pytorch
GitHub 中提及
hero9968/lipnet-python
tf
GitHub 中提及
ms8909/LipONet
tf
GitHub 中提及
rizkiarm/LipNet
官方
tf
GitHub 中提及
LiZhenghua0311/lip
tf
GitHub 中提及
PlatDrake2875/LipNet
pytorch
GitHub 中提及

基准测试

基准方法指标
lipreading-on-grid-corpus-mixed-speechLipNet
Word Error Rate (WER): 4.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LipNet:端到端的句子级唇读模型 | 论文 | HyperAI超神经