3 个月前

基于预训练网络与连续Token接口融合的端到端语音语言理解

基于预训练网络与连续Token接口融合的端到端语音语言理解

摘要

大多数端到端(End-to-End, E2E)语音理解(SLU)模型虽依赖于预训练的自动语音识别(ASR)模型,但仍缺乏对话语语义的充分理解能力,而这对于SLU任务至关重要。为解决这一问题,近期研究提出引入预训练的自然语言理解(NLU)模型。然而,如何有效融合两个预训练模型仍具挑战性,已有多种方法被提出,包括知识蒸馏(Knowledge Distillation)、跨模态共享嵌入以及带有接口(Interface)的网络集成。本文提出一种简单且鲁棒的E2E SLU网络集成方法,引入一种新型接口——连续令牌接口(Continuous Token Interface, CTI),该接口适用于ASR与NLU网络均基于相同词汇表进行预训练的情形。由于二者之间唯一的差异仅为噪声水平,我们可直接将ASR网络的输出作为NLU网络的输入,从而在无需额外模块(如Gumbel-Softmax)的情况下,实现SLU模型的端到端训练。我们在具有挑战性的SLU数据集SLURP上对所提模型进行了评估,结果在意图分类与槽位填充两项任务上均达到了当前最优性能。此外,我们验证了基于掩码语言建模(Masked Language Model)预训练的NLU模型能够有效利用CTI所提供的噪声文本表示。最后,我们进一步证明,即使在引入CTI接口后,该模型仍可基于异构数据实现多任务学习。

基准测试

基准方法指标
spoken-language-understanding-on-fluentWav2Vec2.0-Classifier
Accuracy (%): 99.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于预训练网络与连续Token接口融合的端到端语音语言理解 | 论文 | HyperAI超神经