6 个月前

摘要

大多数端到端（End-to-End, E2E）语音理解（SLU）模型虽依赖于预训练的自动语音识别（ASR）模型，但仍缺乏对话语语义的充分理解能力，而这对于SLU任务至关重要。为解决这一问题，近期研究提出引入预训练的自然语言理解（NLU）模型。然而，如何有效融合两个预训练模型仍具挑战性，已有多种方法被提出，包括知识蒸馏（Knowledge Distillation）、跨模态共享嵌入以及带有接口（Interface）的网络集成。本文提出一种简单且鲁棒的E2E SLU网络集成方法，引入一种新型接口——连续令牌接口（Continuous Token Interface, CTI），该接口适用于ASR与NLU网络均基于相同词汇表进行预训练的情形。由于二者之间唯一的差异仅为噪声水平，我们可直接将ASR网络的输出作为NLU网络的输入，从而在无需额外模块（如Gumbel-Softmax）的情况下，实现SLU模型的端到端训练。我们在具有挑战性的SLU数据集SLURP上对所提模型进行了评估，结果在意图分类与槽位填充两项任务上均达到了当前最优性能。此外，我们验证了基于掩码语言建模（Masked Language Model）预训练的NLU模型能够有效利用CTI所提供的噪声文本表示。最后，我们进一步证明，即使在引入CTI接口后，该模型仍可基于异构数据实现多任务学习。

源 PDF