7 个月前

音频和语音处理

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

摘要

我们介绍了Europarl-ASR，这是一个大规模的议会辩论语音与文本语料库，包含1300小时已转录的演讲内容，以及从欧洲议会会议中提取的7000万词元的英文文本。训练集采用欧洲议会提供的非完全逐字官方转录文本，并进行了时间对齐标注。由于逐字性对声学模型训练至关重要，我们还基于语音数据过滤与逐字化技术，提供了所有演讲的自动去噪和自动逐字化转录文本。此外，另有18小时的演讲内容经过人工逐字化处理，用于构建可靠的、面向特定说话人与非特定说话人的开发/测试集，以支持流式自动语音识别（ASR）的基准测试。该语料库同时提供开发与测试集中的非逐字与逐字人工转录文本，使其成为评估自动过滤与逐字化技术的重要资源。本文详细介绍了该语料库的构建过程，并基于三种训练转录文本集，为特定说话人与非特定说话人任务分别提供了离线与流式ASR基线模型。该语料库已以开放许可协议公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

摘要

我们介绍了Europarl-ASR，这是一个大规模的议会辩论语音与文本语料库，包含1300小时已转录的演讲内容，以及从欧洲议会会议中提取的7000万词元的英文文本。训练集采用欧洲议会提供的非完全逐字官方转录文本，并进行了时间对齐标注。由于逐字性对声学模型训练至关重要，我们还基于语音数据过滤与逐字化技术，提供了所有演讲的自动去噪和自动逐字化转录文本。此外，另有18小时的演讲内容经过人工逐字化处理，用于构建可靠的、面向特定说话人与非特定说话人的开发/测试集，以支持流式自动语音识别（ASR）的基准测试。该语料库同时提供开发与测试集中的非逐字与逐字人工转录文本，使其成为评估自动过滤与逐字化技术的重要资源。本文详细介绍了该语料库的构建过程，并基于三种训练转录文本集，为特定说话人与非特定说话人任务分别提供了离线与流式ASR基线模型。该语料库已以开放许可协议公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供