
摘要
当前关于语音语言理解(Spoken Language Understanding, SLU)的研究主要局限于一种简单场景:基于纯文本的SLU,即以用户语音语句为输入,生成对应的语义框架(如意图和槽位)。然而,在现实复杂场景中,当语句存在语义歧义时,这种仅依赖文本的SLU模型往往难以有效工作。为此,本文首次提出一项新的重要任务——基于用户画像的语音语言理解(Profile-based Spoken Language Understanding, ProSLU),该任务要求模型不仅依赖于原始文本,还需结合辅助的用户画像信息来准确预测意图与槽位。为支持该任务的研究,我们构建了一个大规模人工标注的中文数据集,包含超过5000条语音语句及其对应的辅助信息,涵盖知识图谱(Knowledge Graph, KG)、用户画像(User Profile, UP)以及上下文感知信息(Context Awareness, CA)。此外,我们评估了多种先进的基线模型,并提出一种多层次知识适配器(multi-level knowledge adapter),以高效融合外部画像信息。实验结果表明,当语句存在语义歧义时,所有现有的基于文本的SLU模型均表现不佳;而本文提出的框架能够有效融合辅助信息,在句子级意图识别与词粒度槽位填充任务中显著提升性能。最后,本文总结了该领域面临的关键挑战,并为未来研究提供了新的方向与思路,旨在推动该方向的深入发展。
代码仓库
looperxx/proslu
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| intent-detection-on-proslu | General SLU Model w/ Profile | Accuracy: 0.8531 |
| slot-filling-on-proslu | General SLU Model w/ Profile | F1: 0.8327 |