6 个月前

摘要

语音情感识别（Speech Emotion Recognition, SER）对于理解说话者的意图至关重要。近年来，一些研究团队尝试通过双向长短期记忆网络（Bidirectional Long Short-Term Memory, BLSTM）从语音序列中提取特征，并结合自注意力机制（self-attention mechanism）聚焦于语音序列中的关键部分，以提升SER性能。此外，将语音信息与文本信息相结合也能进一步增强SER的效果，这一过程可通过自动语音识别（Automatic Speech Recognition, ASR）系统自动完成。然而，在语音中存在情感表达时，ASR的性能往往会下降。尽管已有方法可用于提升情感语音下的ASR性能，但这些方法通常需要对ASR模型进行微调，计算成本较高，且可能导致丢失对判断语音片段中情感存在至关重要的线索，从而影响SER的准确性。为解决上述问题，本文提出一种基于BLSTM与自注意力机制的SER方法，引入自注意力权重校正（Self-Attention Weight Correction, SAWC）并结合置信度度量。该方法应用于SER中的声学特征提取器与文本特征提取器，用于动态调整语音片段和词语的重要性权重，尤其针对ASR识别错误可能性较高的部分。所提出的SAWC机制在文本特征中降低识别错误词语的权重，同时在声学特征中增强包含这些词语的语音片段的重要性。在交互式情感双人动作捕捉数据集（Interactive Emotional Dyadic Motion Capture, IEMOCAP）上的实验结果表明，本方法实现了76.6%的加权平均准确率，优于现有主流方法。此外，我们还深入分析了SAWC在不同特征提取器中的具体作用行为，验证了其在提升SER鲁棒性方面的有效性。

源 PDF