4 个月前

提高唇读能力的训练策略

提高唇读能力的训练策略

摘要

近期,一系列独立研究提出了多种训练策略和时序模型,用于孤立词汇唇读。然而,尚未有人探索将这些最佳策略结合起来并研究每种策略的影响。在本文中,我们系统地研究了最先进的数据增强方法、时序模型以及其他训练策略(如自蒸馏和使用词边界指示器)的性能。我们的结果显示,时间遮罩(Time Masking, TM)是最重要的数据增强方法,其次是混合训练(mixup)。对于孤立词汇唇读而言,密集连接时序卷积网络(Densely-Connected Temporal Convolutional Networks, DC-TCN)是最优的时序模型。虽然使用自蒸馏和词边界指示器也有助益,但其效果相对较小。将上述所有方法结合使用后,分类准确率达到了93.4%,相比目前在LRW数据集上的最先进表现绝对提升了4.6%。通过在额外的数据集上进行预训练,性能可以进一步提高到94.1%。对各种训练策略的错误分析表明,性能提升主要体现在提高了难以识别词汇的分类准确率。

基准测试

基准方法指标
lipreading-on-lip-reading-in-the-wild3D Conv + ResNet-18 + DC-TCN + KD (Ensemble & Word Boundary)
Top-1 Accuracy: 94.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
提高唇读能力的训练策略 | 论文 | HyperAI超神经