3 个月前

Sagalee:面向奥罗莫语的开源自动语音识别数据集

Sagalee:面向奥罗莫语的开源自动语音识别数据集

摘要

我们提出了一种面向奥罗莫语(Oromo)的新型自动语音识别(ASR)数据集。奥罗莫语是埃塞俄比亚及其周边地区使用最广泛的语言之一。该数据集通过众包方式收集,涵盖多样化的说话人及丰富的语音变体,包含100小时的真实场景音频录音及其对应转写文本,覆盖了在安静与嘈杂环境下的朗读语音。该数据集填补了奥罗莫语在ASR资源方面长期匮乏的空白,满足了该语言在语音识别领域的重要需求。为验证该数据集在ASR任务中的适用性,我们采用Conformer模型进行了实验,分别在混合CTC与AED损失(hybrid CTC and AED loss)下取得了15.32%的词错误率(Word Error Rate, WER),在纯CTC损失下达到18.74%的WER。此外,通过对Whisper模型进行微调,显著提升了识别性能,将WER降低至10.82%。这些结果为奥罗莫语ASR研究建立了基准,既揭示了当前技术面临的挑战,也展现了进一步提升识别性能的巨大潜力。该数据集已公开发布于:https://github.com/turinaf/sagalee,我们诚挚鼓励研究者和开发者使用该数据集,推动奥罗莫语语音处理技术的持续研究与应用发展。

代码仓库

turinaf/sagalee
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
automatic-speech-recognition-asr-on-sagaleeConformer
Test WER: 15.32
automatic-speech-recognition-asr-on-sagaleeWhisper-largev3-finetuned
Test WER: 10.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sagalee:面向奥罗莫语的开源自动语音识别数据集 | 论文 | HyperAI超神经