HyperAIHyperAI

Command Palette

Search for a command to run...

基于时序卷积网络的唇读

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

摘要

近年来,由于深度学习技术的进展,唇读(lip-reading)吸引了大量研究关注。目前在真实场景下孤立词识别的最先进模型由残差网络(Residual Network)与双向门控循环单元(Bidirectional Gated Recurrent Unit, BGRU)层构成。本文针对该模型的局限性提出改进方案,进一步提升了其性能。首先,将BGRU层替换为时序卷积网络(Temporal Convolutional Network, TCN),以增强对时间序列特征的建模能力;其次,大幅简化了训练流程,使得模型能够在单一阶段内完成训练;第三,我们发现当前最先进方法所训练的模型在序列长度变化时泛化能力较差,为此提出一种可变长度数据增强策略以缓解该问题。我们在两个目前最大规模的公开孤立词识别数据集——英文数据集LRW与中文数据集LRW1000上进行了实验验证。所提出的模型在上述两个数据集上分别取得了1.2%和3.2%的绝对性能提升,达到新的最先进水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于时序卷积网络的唇读 | 论文 | HyperAI超神经