3 个月前

基于EfficientNetV2与Transformer的精准高效唇读方法

基于EfficientNetV2与Transformer的精准高效唇读方法

摘要

我们提出了一种新型的资源高效端到端唇读架构,在一个广泛使用且极具挑战性的基准测试上取得了当前最优的性能。具体而言,本文作出以下贡献:首先,受近期EfficientNet架构在图像分类任务中取得成功的启发,并结合我们此前在资源高效唇读模型(MobiLipNet)方面的研究基础,首次将EfficientNet引入唇读任务。其次,我们发现当前文献中广泛采用的3D前端结构中包含一个最大池化(max-pool)层,该层会限制网络性能的进一步提升,因此提出移除该层以释放模型潜力。最后,通过引入Transformer编码器,显著增强了系统后端的鲁棒性。我们在“野生环境下的唇读”(Lipreading In-The-Wild, LRW)语料库上对所提系统进行了评估,该语料库包含来自BBC电视广播的短时视频片段。所提出的网络(T-variant)在保持五倍更低计算开销的前提下,达到了88.53%的词准确率,相较当前最优方法实现了0.17%的绝对性能提升;此外,模型的放大版本(L-variant)进一步取得了89.52%的词准确率,刷新了LRW语料库上的最新纪录,成为该任务的新最优结果。

基准测试

基准方法指标
lipreading-on-lip-reading-in-the-wild3D Conv + EfficientNetV2 + Transformer + TCN
Top-1 Accuracy: 89.52

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于EfficientNetV2与Transformer的精准高效唇读方法 | 论文 | HyperAI超神经