3 个月前

通过微调XLS-R,提升先前最先进的弗里斯兰语ASR性能

通过微调XLS-R,提升先前最先进的弗里斯兰语ASR性能

摘要

自动语音识别(Automatic Speech Recognition, ASR)系统能够将人类语音转换为文本,在实现人类通信的数字化方面发挥着关键作用。然而,尽管其重要性显著,目前大多数ASR系统主要针对资源丰富的语言(如英语、汉语和西班牙语)进行设计,导致资源较少的语言(如弗里斯兰语)在语音识别领域仍处于被忽视的状态。为解决这一问题,本文提出一种基于Wav2Vec 2.0 XLS-R架构的微调ASR模型,该模型在Common Voice语料库第12.0版本上进行训练,用于实现弗里斯兰语语音的转写。在学习率设置为8e-5的条件下,所提出的ASR系统取得了15.99%的词错误率(Word Error Rate, WER),优于此前的最先进水平(16.25%),为该领域的后续研究提供了重要基准。

基准测试

基准方法指标
speech-recognition-on-common-voice-frisianwav2vec2-large-xls-r-1b-frisian
Test WER: 15.99%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过微调XLS-R,提升先前最先进的弗里斯兰语ASR性能 | 论文 | HyperAI超神经