{Alfons JuanAlbert SanchisJorge CiveraAlejandro Pérez-González-de-MartosNahuel RosellóPau Baquero-ArnalJavier Iranzo-SánchezAdrià Giménez PastorJavier JorgeJoan-Albert Silvestre-CerdàGonçal V. Garcés Díaz-Munío}
摘要
我们介绍了Europarl-ASR,这是一个大规模的议会辩论语音与文本语料库,包含1300小时已转录的演讲内容,以及从欧洲议会会议中提取的7000万词元的英文文本。训练集采用欧洲议会提供的非完全逐字官方转录文本,并进行了时间对齐标注。由于逐字性对声学模型训练至关重要,我们还基于语音数据过滤与逐字化技术,提供了所有演讲的自动去噪和自动逐字化转录文本。此外,另有18小时的演讲内容经过人工逐字化处理,用于构建可靠的、面向特定说话人与非特定说话人的开发/测试集,以支持流式自动语音识别(ASR)的基准测试。该语料库同时提供开发与测试集中的非逐字与逐字人工转录文本,使其成为评估自动过滤与逐字化技术的重要资源。本文详细介绍了该语料库的构建过程,并基于三种训练转录文本集,为特定说话人与非特定说话人任务分别提供了离线与流式ASR基线模型。该语料库已以开放许可协议公开发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-europarl-asr-en-guest | mllp_2021_streaming_verb | WER: 7.3 |
| speech-recognition-on-europarl-asr-en-guest | mllp_2021_offline_verb | WER: 7.0 |
| speech-recognition-on-europarl-asr-en-mep | mllp_2021_streaming_filt | WER: 7.9 |
| speech-recognition-on-europarl-asr-en-mep | mllp_2021_offline_filt | WER: 7.8 |