3 个月前

Finstreder:基于现代Speech-to-Text模型的有限状态转换器实现简单高效的口语理解

Finstreder:基于现代Speech-to-Text模型的有限状态转换器实现简单高效的口语理解

摘要

在语音理解(Spoken Language Understanding, SLU)任务中,其目标是从语音指令中提取关键信息,例如用户意图(即希望系统执行的操作)以及特定实体(如地点、数字等)。本文提出了一种简单的方法,将意图和实体嵌入有限状态转换器(Finite State Transducers)中,并结合预训练的通用语音识别模型(Speech-to-Text model),实现无需任何额外训练即可构建SLU系统。该方法构建模型速度极快,仅需数秒时间,且完全与语言无关。通过在多个基准数据集上的对比实验表明,该方法在性能上可超越多种其他更为资源密集型的SLU方法。

基准测试

基准方法指标
intent-classification-on-slurpFinstreder (Quartznet)
Accuracy (%): 43.15
intent-classification-on-slurpFinstreder (Conformer)
Accuracy (%): 53.11
slot-filling-on-slurpFinstreder (Conformer)
F1: 0.395
slot-filling-on-slurpFinstreder (Quartznet)
F1: 0.313
spoken-language-understanding-on-fluentFinstreder (Quartznet + AMT)
Accuracy (%): 99.7
spoken-language-understanding-on-fluentFinstreder (Conformer + AMT, character-based)
Accuracy (%): 99.8
spoken-language-understanding-on-fluentFinstreder (Conformer)
Accuracy (%): 99.5
spoken-language-understanding-on-fluentAmazon Alexa
Accuracy (%): 98.7
spoken-language-understanding-on-fluentFinstreder (Quartznet)
Accuracy (%): 99.2
spoken-language-understanding-on-snipsFinstreder (Conformer, character-based)
Accuracy (%): 89.0
spoken-language-understanding-on-snipsFinstreder (Conformer)
Accuracy (%): 88.0
spoken-language-understanding-on-snipsFinstreder (Quartznet)
Accuracy (%): 84.8
spoken-language-understanding-on-snips-1Finstreder (Quartznet)
Accuracy-EN (%): 77.6
Accuracy-FR (%): 77.8
spoken-language-understanding-on-snips-1Finstreder (Conformer, character-based)
Accuracy-EN (%): 87.9
Accuracy-FR (%): 86.5
spoken-language-understanding-on-snips-1Finstreder (Conformer)
Accuracy-EN (%): 80.4
Accuracy-FR (%): 78.3
spoken-language-understanding-on-timers-andFinstreder (Quartznet)
Accuracy (%): 90.0
spoken-language-understanding-on-timers-andFinstreder (Conformer)
Accuracy (%): 95.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Finstreder:基于现代Speech-to-Text模型的有限状态转换器实现简单高效的口语理解 | 论文 | HyperAI超神经