3 个月前

文本已不再足够!面向基于个人资料的语音理解基准测试

文本已不再足够!面向基于个人资料的语音理解基准测试

摘要

当前关于语音语言理解(Spoken Language Understanding, SLU)的研究主要局限于一种简单场景:基于纯文本的SLU,即以用户语音语句为输入,生成对应的语义框架(如意图和槽位)。然而,在现实复杂场景中,当语句存在语义歧义时,这种仅依赖文本的SLU模型往往难以有效工作。为此,本文首次提出一项新的重要任务——基于用户画像的语音语言理解(Profile-based Spoken Language Understanding, ProSLU),该任务要求模型不仅依赖于原始文本,还需结合辅助的用户画像信息来准确预测意图与槽位。为支持该任务的研究,我们构建了一个大规模人工标注的中文数据集,包含超过5000条语音语句及其对应的辅助信息,涵盖知识图谱(Knowledge Graph, KG)、用户画像(User Profile, UP)以及上下文感知信息(Context Awareness, CA)。此外,我们评估了多种先进的基线模型,并提出一种多层次知识适配器(multi-level knowledge adapter),以高效融合外部画像信息。实验结果表明,当语句存在语义歧义时,所有现有的基于文本的SLU模型均表现不佳;而本文提出的框架能够有效融合辅助信息,在句子级意图识别与词粒度槽位填充任务中显著提升性能。最后,本文总结了该领域面临的关键挑战,并为未来研究提供了新的方向与思路,旨在推动该方向的深入发展。

代码仓库

looperxx/proslu
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
intent-detection-on-prosluGeneral SLU Model w/ Profile
Accuracy: 0.8531
slot-filling-on-prosluGeneral SLU Model w/ Profile
F1: 0.8327

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本已不再足够!面向基于个人资料的语音理解基准测试 | 论文 | HyperAI超神经