
摘要
近日,语音-文本预训练方法在许多语音和自然语言处理任务中展现出显著的成功。然而,大多数先前的预训练模型通常仅针对一两个特定任务进行优化,却无法广泛应用于多种语音-文本任务。此外,现有的语音-文本预训练方法未能充分探索对话中的上下文信息以丰富话语表示。本文提出了一种全新的语音-文本对话预训练模型——基于显式跨模态对齐(ExpliCiT cRoss-Modal Alignment, SPECTRA)的语音-文本对话预训练模型(Speech-text dialog Pre-training for spoken dialog understanding with ExpliCiT cRoss-Modal Alignment, SPECTRA),这是首个专门用于口语对话理解的语音-文本对话预训练模型。具体而言,为了考虑语音模态的时间特性,我们设计了一种新颖的时间位置预测任务来捕捉语音-文本对齐关系。该预训练任务旨在预测每个文本单词在相应语音波形中的起始时间和结束时间。此外,为了学习口语对话的特点,我们将从文本对话预训练中推广出的响应选择任务扩展到语音-文本对话预训练场景中。四个不同下游任务的实验结果表明,SPECTRA 在学习语音-文本对齐和多轮对话上下文方面具有优越性。
代码仓库
alibabaresearch/damo-convai
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on | SPECTRA | Accuracy: 67.94 |
| multimodal-intent-recognition-on-mintrec | SPECTRA | Accuracy (20 classes): 73.48 |
| multimodal-sentiment-analysis-on-cmu-mosei-1 | SPECTRA | Accuracy: 87.34 |
| multimodal-sentiment-analysis-on-cmu-mosi | SPECTRA | Acc-2: 87.5 |
| multimodal-sentiment-analysis-on-mosi | SPECTRA | Accuracy: 87.50 |