4 个月前

LRW-1000:一种自然分布的大规模野外唇读基准数据集

LRW-1000:一种自然分布的大规模野外唇读基准数据集

摘要

大规模数据集在多个研究领域中已相继证明了其基础性的重要性,特别是在一些新兴课题的早期进展中。本文重点关注视觉语音识别问题,也称为唇读(lipreading),该领域近年来受到了越来越多的关注。我们介绍了一个名为LRW-1000的自然分布的大规模基准数据集,用于野外环境下的唇读,包含1,000个类别和来自2,000多名独立发言者的718,018个样本。每个类别对应一个由一个或多个汉字组成的普通话词语的音节。据我们所知,这是目前最大的词级唇读数据集,也是唯一公开的大规模普通话唇读数据集。该数据集旨在涵盖不同说话模式和成像条件下的“自然”变异性,以纳入实际应用中遇到的挑战。此基准数据集在多个方面表现出较大的变化,包括每个类别的样本数量、视频分辨率、光照条件以及发言者的属性如姿势、年龄、性别和化妆等。除了提供对数据集及其采集流程的详细描述外,我们还评估了几种典型的流行唇读方法,并从多个角度对结果进行了深入分析。结果表明我们的数据集具有一致性和挑战性,这可能为未来的研究开辟一些新的有前景的方向。

代码仓库

Fengdalu/Lipreading-DenseNet3D
pytorch
GitHub 中提及
NirHeaven/D3D
pytorch
GitHub 中提及

基准测试

基准方法指标
lipreading-on-lrw-1000-1DenseNet3D + Bi-GRU
Top-1 Accuracy: 34.76%
lipreading-on-lrw-1000-13D Conv + ResNet-34 + Bi-GRU
Top-1 Accuracy: 38.19%
lipreading-on-lrw-1000-1Multi-Tower LSTM-5
Top-1 Accuracy: 25.76%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LRW-1000:一种自然分布的大规模野外唇读基准数据集 | 论文 | HyperAI超神经