4 个月前

用于口语对话理解的显式跨模态对齐的语音-文本对话预训练

用于口语对话理解的显式跨模态对齐的语音-文本对话预训练

摘要

近日,语音-文本预训练方法在许多语音和自然语言处理任务中展现出显著的成功。然而,大多数先前的预训练模型通常仅针对一两个特定任务进行优化,却无法广泛应用于多种语音-文本任务。此外,现有的语音-文本预训练方法未能充分探索对话中的上下文信息以丰富话语表示。本文提出了一种全新的语音-文本对话预训练模型——基于显式跨模态对齐(ExpliCiT cRoss-Modal Alignment, SPECTRA)的语音-文本对话预训练模型(Speech-text dialog Pre-training for spoken dialog understanding with ExpliCiT cRoss-Modal Alignment, SPECTRA),这是首个专门用于口语对话理解的语音-文本对话预训练模型。具体而言,为了考虑语音模态的时间特性,我们设计了一种新颖的时间位置预测任务来捕捉语音-文本对齐关系。该预训练任务旨在预测每个文本单词在相应语音波形中的起始时间和结束时间。此外,为了学习口语对话的特点,我们将从文本对话预训练中推广出的响应选择任务扩展到语音-文本对话预训练场景中。四个不同下游任务的实验结果表明,SPECTRA 在学习语音-文本对齐和多轮对话上下文方面具有优越性。

代码仓库

基准测试

基准方法指标
emotion-recognition-in-conversation-onSPECTRA
Accuracy: 67.94
multimodal-intent-recognition-on-mintrecSPECTRA
Accuracy (20 classes): 73.48
multimodal-sentiment-analysis-on-cmu-mosei-1SPECTRA
Accuracy: 87.34
multimodal-sentiment-analysis-on-cmu-mosiSPECTRA
Acc-2: 87.5
multimodal-sentiment-analysis-on-mosiSPECTRA
Accuracy: 87.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于口语对话理解的显式跨模态对齐的语音-文本对话预训练 | 论文 | HyperAI超神经