3 个月前

语音对话中序列标注的分层预训练

语音对话中序列标注的分层预训练

摘要

对话行为识别与情感/情绪识别等序列标注任务是语音对话系统中的关键组成部分。本文提出了一种新方法,用于学习适用于语音对话的通用表示,并在我们提出的全新基准测试集——语音语言序列标注评估基准(Sequence Labelling Evaluation Benchmark for Spoken Language, \texttt{SILICONE})上进行了评估。\texttt{SILICONE} 具有模型无关性,包含10个不同规模的数据集。我们采用基于Transformer架构的层次化编码器来获取这些表示,并对两种广为人知的预训练目标进行了扩展。预训练在OpenSubtitles数据集上进行,该数据集是一个大规模语音对话语料库,包含超过23亿个词元(tokens)。实验结果表明,与当前最先进模型相比,层次化编码器在保持优异性能的同时,参数量显著更少,且在预训练和微调阶段均展现出重要优势。

基准测试

基准方法指标
dialogue-act-classification-on-icsi-meetingPretrained Hierarchical Transformer
Accuracy: 92.4
dialogue-act-classification-on-switchboardPretrained Hierarchical Transformer
Accuracy: 79.2
emotion-recognition-in-conversation-onPretrained Hierarchical Transformer
Accuracy: 66.05
Weighted-F1: 65.37
emotion-recognition-in-conversation-on-2Pretrained Hierarchical Transformer
MAE (Arousal): 0.16
MAE (Expectancy): 0.16
MAE (Power): 7.70
MAE (Valence): 0.16
emotion-recognition-in-conversation-on-3Pretrained Hierarchical Transformer
Micro-F1: 60.14
emotion-recognition-in-conversation-on-meldPretrained Hierarchical Transformer
Weighted-F1: 61.90
text-classification-on-silicone-benchmarkPretrained Hierarchical Transformer
1:1 Accuracy: 71.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语音对话中序列标注的分层预训练 | 论文 | HyperAI超神经