4 个月前

CrowdSpeech 和 VoxDIY:众包音频转录的基准数据集

CrowdSpeech 和 VoxDIY:众包音频转录的基准数据集

摘要

领域特定数据是机器学习系统从基准测试成功转移到实际应用的关键。在图像分类等简单问题中,众包已成为一种廉价且高效的数据收集工具,这在很大程度上得益于聚合方法研究的进步。然而,由于缺乏针对这些模态的原理性聚合方法,众包在更复杂任务(如语音识别)中的适用性仍然有限。设计适用于更高级应用的聚合方法的主要障碍是缺乏训练数据,在这项工作中,我们专注于弥合语音识别领域的这一差距。为此,我们收集并发布了CrowdSpeech——首个公开可用的大规模众包音频转录数据集。对现有和新型聚合方法在我们数据集上的评估表明还有改进的空间,这表明我们的工作可能促使更好的算法设计。在更高层次上,我们也为通过众包可靠地收集数据这一更具普遍性的挑战做出了贡献。具体而言,我们设计了一种原理性的流程,用于构建任何新领域的众包音频转录数据集。我们在资源不足的语言上展示了该流程的适用性,构建了VoxDIY——俄语版本的CrowdSpeech。此外,我们还发布了允许完全复现我们数据收集流程的代码,并分享了关于通过众包进行数据收集的最佳实践的各种见解。

代码仓库

Toloka/CrowdSpeech
官方
GitHub 中提及

基准测试

基准方法指标
crowdsourced-text-aggregation-on-crowdspeechROVER
Word Error Rate (WER): 7.29
crowdsourced-text-aggregation-on-crowdspeechRASA
Word Error Rate (WER): 8.6
crowdsourced-text-aggregation-on-crowdspeechHRRASA
Word Error Rate (WER): 8.59
crowdsourced-text-aggregation-on-crowdspeech-1ROVER
Word Error Rate (WER): 13.41
crowdsourced-text-aggregation-on-crowdspeech-1HRRASA
Word Error Rate (WER): 15.66
crowdsourced-text-aggregation-on-crowdspeech-1RASA
Word Error Rate (WER): 15.67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供