6 个月前

计算机视觉

卷积神经网络

计算机视觉

Gerasimos Potamianos Alexandros Koumparoulis

摘要

我们提出了一种新型的资源高效端到端唇读架构，在一个广泛使用且极具挑战性的基准测试上取得了当前最优的性能。具体而言，本文作出以下贡献：首先，受近期EfficientNet架构在图像分类任务中取得成功的启发，并结合我们此前在资源高效唇读模型（MobiLipNet）方面的研究基础，首次将EfficientNet引入唇读任务。其次，我们发现当前文献中广泛采用的3D前端结构中包含一个最大池化（max-pool）层，该层会限制网络性能的进一步提升，因此提出移除该层以释放模型潜力。最后，通过引入Transformer编码器，显著增强了系统后端的鲁棒性。我们在“野生环境下的唇读”（Lipreading In-The-Wild, LRW）语料库上对所提系统进行了评估，该语料库包含来自BBC电视广播的短时视频片段。所提出的网络（T-variant）在保持五倍更低计算开销的前提下，达到了88.53%的词准确率，相较当前最优方法实现了0.17%的绝对性能提升；此外，模型的放大版本（L-variant）进一步取得了89.52%的词准确率，刷新了LRW语料库上的最新纪录，成为该任务的新最优结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

卷积神经网络

计算机视觉

Gerasimos Potamianos Alexandros Koumparoulis

摘要

我们提出了一种新型的资源高效端到端唇读架构，在一个广泛使用且极具挑战性的基准测试上取得了当前最优的性能。具体而言，本文作出以下贡献：首先，受近期EfficientNet架构在图像分类任务中取得成功的启发，并结合我们此前在资源高效唇读模型（MobiLipNet）方面的研究基础，首次将EfficientNet引入唇读任务。其次，我们发现当前文献中广泛采用的3D前端结构中包含一个最大池化（max-pool）层，该层会限制网络性能的进一步提升，因此提出移除该层以释放模型潜力。最后，通过引入Transformer编码器，显著增强了系统后端的鲁棒性。我们在“野生环境下的唇读”（Lipreading In-The-Wild, LRW）语料库上对所提系统进行了评估，该语料库包含来自BBC电视广播的短时视频片段。所提出的网络（T-variant）在保持五倍更低计算开销的前提下，达到了88.53%的词准确率，相较当前最优方法实现了0.17%的绝对性能提升；此外，模型的放大版本（L-variant）进一步取得了89.52%的词准确率，刷新了LRW语料库上的最新纪录，成为该任务的新最优结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供