3 个月前

SPGI语音:5,000小时带转录的金融音频,用于完整格式化的端到端语音识别

SPGI语音:5,000小时带转录的金融音频,用于完整格式化的端到端语音识别

摘要

在英语语音转文本(Speech-to-Text, STT)的机器学习任务中,声学模型传统上在未经大小写区分的拉丁字母上进行训练,而必要的正字法处理(如首字母大写、标点符号添加以及非标准词汇的规范化)则依赖于独立的后处理模型完成。这一方法增加了系统复杂性,并限制了整体性能,因为许多格式化任务本可从声学信号中蕴含的语义信息中获益,而这些信息在纯文本转录中往往缺失。为此,本文提出一种新型的STT任务:端到端神经转录,目标标签为完整格式化的文本输出。我们构建了基于Conformer架构的基线模型,该模型在包含5000小时专业转录的财报电话会议语料库上进行训练,取得了1.7%的字符错误率(CER)。作为对STT研究社区的贡献,我们已将该语料库免费开放用于非商业用途,访问地址为:https://datasets.kensho.com/datasets/scribe。

基准测试

基准方法指标
speech-recognition-on-spgispeechConformer
Word Error Rate (WER): 5.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SPGI语音:5,000小时带转录的金融音频,用于完整格式化的端到端语音识别 | 论文 | HyperAI超神经