HyperAI超神经

摘要

在英语语音转文本（Speech-to-Text, STT）的机器学习任务中，声学模型传统上在未经大小写区分的拉丁字母上进行训练，而必要的正字法处理（如首字母大写、标点符号添加以及非标准词汇的规范化）则依赖于独立的后处理模型完成。这一方法增加了系统复杂性，并限制了整体性能，因为许多格式化任务本可从声学信号中蕴含的语义信息中获益，而这些信息在纯文本转录中往往缺失。为此，本文提出一种新型的STT任务：端到端神经转录，目标标签为完整格式化的文本输出。我们构建了基于Conformer架构的基线模型，该模型在包含5000小时专业转录的财报电话会议语料库上进行训练，取得了1.7%的字符错误率（CER）。作为对STT研究社区的贡献，我们已将该语料库免费开放用于非商业用途，访问地址为：https://datasets.kensho.com/datasets/scribe。

摘要

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg

摘要

用 AI 构建 AI

HyperAI Newsletters

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg

摘要

用 AI 构建 AI

HyperAI Newsletters

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SPGI语音：5,000小时带转录的金融音频，用于完整格式化的端到端语音识别

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SPGI语音：5,000小时带转录的金融音频，用于完整格式化的端到端语音识别

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SPGI语音：5,000小时带转录的金融音频，用于完整格式化的端到端语音识别

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg

Patrick K. O&#39 Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg