3 个月前

我们是否仍然需要自动语音识别(Automatic Speech Recognition)来实现口语理解?

我们是否仍然需要自动语音识别(Automatic Speech Recognition)来实现口语理解?

摘要

语音理解(Spoken Language Understanding, SLU)任务通常采用两阶段处理方式:首先通过自动语音识别(Automatic Speech Recognition, ASR)将语音转写为文本,再将转写结果输入基于文本的模型进行后续处理。近年来,语音数据的自监督表示学习取得了显著进展,主要集中在提升ASR模块的性能。本文探讨了语音表示学习是否已发展到足以在SLU任务中替代ASR的程度。我们对比了wav2vec 2.0学习得到的语音特征、当前最先进的ASR转写结果以及真实文本(ground truth)作为输入,在一项新型基于语音的命名实体识别任务、一项真实急救电话中的心脏骤停检测任务,以及两个现有的SLU基准测试上的表现。实验结果表明,在三项分类任务中,学习到的语音特征优于ASR转写文本。然而,在机器翻译任务中,ASR转写文本仍是更优选择。本文进一步指出,wav2vec 2.0表示对未登录词(out-of-vocabulary words)具有内在的鲁棒性,这是其在多项任务中表现更优的关键原因。

基准测试

基准方法指标
spoken-language-understanding-on-fluentWav2vec 2.0 SSL
Accuracy (%): 99.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
我们是否仍然需要自动语音识别(Automatic Speech Recognition)来实现口语理解? | 论文 | HyperAI超神经