4 个月前

无需痛苦地学习有效的唇读模型

无需痛苦地学习有效的唇读模型

摘要

唇读,也称为视觉语音识别,旨在通过分析视频中的唇部动态来识别语音内容。近年来,得益于深度学习技术的快速发展以及大规模唇读数据集的出现,该领域取得了若干令人瞩目的进展。现有的大多数方法通过构建复杂的神经网络并结合几种定制的训练策略实现了高性能,而这些策略通常仅在简短的描述中提及,甚至只在源代码中展示。我们发现,合理利用这些策略可以在不大幅改变模型的情况下带来显著的改进。鉴于这些策略的重要影响以及训练有效唇读模型所面临的挑战,我们首次进行了全面的定量研究和比较分析,以展示不同选择对唇读效果的影响。通过仅对基线流程引入一些易于实现的改进措施,我们在两个最大的公开唇读数据集LRW和LRW-1000上分别将性能从83.7%提升至88.4%,从38.2%提升至55.7%。这些结果与现有最先进水平相当,甚至有所超越。

代码仓库

基准测试

基准方法指标
lipreading-on-lip-reading-in-the-wild3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR
Top-1 Accuracy: 85.5
lipreading-on-lip-reading-in-the-wild3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR (Word Boundary)
Top-1 Accuracy: 88.4
lipreading-on-lrw-10003D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR (Word Boundary)
Top-1 Accuracy: 55.7%
lipreading-on-lrw-10003D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR
Top-1 Accuracy: 48.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无需痛苦地学习有效的唇读模型 | 论文 | HyperAI超神经