3 个月前

SpeechBERT:一种用于端到端语音问答的音频与文本联合学习语言模型

SpeechBERT:一种用于端到端语音问答的音频与文本联合学习语言模型

摘要

尽管近年来已有多种端到端的语音语言理解模型被提出,但本文可能是首次尝试应对极具挑战性的端到端语音问答(Spoken Question Answering, SQA)任务。受在多种文本处理任务中表现卓越的BERT模型启发,本文提出了一种音频与文本联合学习的SpeechBERT模型。该模型在包含语音识别(ASR)错误的答题片段的数据集上,优于传统的级联式方法(即先进行ASR,再接文本问答TQA模型),原因在于端到端模型能够在ASR产生错误之前,直接从音频数据中提取有效信息。进一步地,将所提出的端到端模型与级联架构进行集成,取得了更优的性能表现。除了在端到端SQA任务中的潜力外,SpeechBERT还可类比BERT在多种文本处理任务中的应用,广泛适用于其他语音语言理解任务。

基准测试

基准方法指标
spoken-language-understanding-on-spoken-squadSpeechBERT
F1 score: 71.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SpeechBERT:一种用于端到端语音问答的音频与文本联合学习语言模型 | 论文 | HyperAI超神经