6 个月前

自然语言处理

自然语言处理

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

摘要

尽管近年来已有多种端到端的语音语言理解模型被提出，但本文可能是首次尝试应对极具挑战性的端到端语音问答（Spoken Question Answering, SQA）任务。受在多种文本处理任务中表现卓越的BERT模型启发，本文提出了一种音频与文本联合学习的SpeechBERT模型。该模型在包含语音识别（ASR）错误的答题片段的数据集上，优于传统的级联式方法（即先进行ASR，再接文本问答TQA模型），原因在于端到端模型能够在ASR产生错误之前，直接从音频数据中提取有效信息。进一步地，将所提出的端到端模型与级联架构进行集成，取得了更优的性能表现。除了在端到端SQA任务中的潜力外，SpeechBERT还可类比BERT在多种文本处理任务中的应用，广泛适用于其他语音语言理解任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

摘要

尽管近年来已有多种端到端的语音语言理解模型被提出，但本文可能是首次尝试应对极具挑战性的端到端语音问答（Spoken Question Answering, SQA）任务。受在多种文本处理任务中表现卓越的BERT模型启发，本文提出了一种音频与文本联合学习的SpeechBERT模型。该模型在包含语音识别（ASR）错误的答题片段的数据集上，优于传统的级联式方法（即先进行ASR，再接文本问答TQA模型），原因在于端到端模型能够在ASR产生错误之前，直接从音频数据中提取有效信息。进一步地，将所提出的端到端模型与级联架构进行集成，取得了更优的性能表现。除了在端到端SQA任务中的潜力外，SpeechBERT还可类比BERT在多种文本处理任务中的应用，广泛适用于其他语音语言理解任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供