3 个月前

端到端语音语言理解的两阶段文本知识蒸馏

端到端语音语言理解的两阶段文本知识蒸馏

摘要

端到端方法通过缓解传统流水线系统固有的缺陷,为实现更准确、高效的语音语言理解(Spoken Language Understanding, SLU)系统开辟了新路径。以往的研究通过自动语音识别(ASR)预训练或知识蒸馏微调的方式,将文本信息融入SLU模型。为更有效地利用文本信息,本文提出一种两阶段文本知识蒸馏方法,在预训练与微调阶段分别对齐不同模态的语句级表示(utterance-level representations)和预测 logits。我们采用 vq-wav2vec BERT 作为语音编码器,因其能够捕捉到通用且丰富的语音特征。此外,通过随机掩码离散音频 token 以及上下文化隐藏表示的数据增强策略,显著提升了模型性能,尤其在低资源场景下表现突出。实验结果表明,该方法在 Fluent Speech Commands 数据集上达到了当前最优水平:在全数据集设置下测试准确率达 99.7%,在 10% 子集设置下亦达到 99.5%。通过系统的消融实验,我们实证验证了所采用各项技术对最终性能的关键作用,为语音语言理解任务提供了最佳实践范例。代码已开源,地址为:https://github.com/clovaai/textual-kd-slu。

代码仓库

clovaai/textual-kd-slu
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
spoken-language-understanding-on-fluenttextual-kd-slu
Accuracy (%): 99.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
端到端语音语言理解的两阶段文本知识蒸馏 | 论文 | HyperAI超神经