3 个月前

基于自注意力权重修正的语音情感识别:融合声学与文本特征

基于自注意力权重修正的语音情感识别:融合声学与文本特征

摘要

语音情感识别(Speech Emotion Recognition, SER)对于理解说话者的意图至关重要。近年来,一些研究团队尝试通过双向长短期记忆网络(Bidirectional Long Short-Term Memory, BLSTM)从语音序列中提取特征,并结合自注意力机制(self-attention mechanism)聚焦于语音序列中的关键部分,以提升SER性能。此外,将语音信息与文本信息相结合也能进一步增强SER的效果,这一过程可通过自动语音识别(Automatic Speech Recognition, ASR)系统自动完成。然而,在语音中存在情感表达时,ASR的性能往往会下降。尽管已有方法可用于提升情感语音下的ASR性能,但这些方法通常需要对ASR模型进行微调,计算成本较高,且可能导致丢失对判断语音片段中情感存在至关重要的线索,从而影响SER的准确性。为解决上述问题,本文提出一种基于BLSTM与自注意力机制的SER方法,引入自注意力权重校正(Self-Attention Weight Correction, SAWC)并结合置信度度量。该方法应用于SER中的声学特征提取器与文本特征提取器,用于动态调整语音片段和词语的重要性权重,尤其针对ASR识别错误可能性较高的部分。所提出的SAWC机制在文本特征中降低识别错误词语的权重,同时在声学特征中增强包含这些词语的语音片段的重要性。在交互式情感双人动作捕捉数据集(Interactive Emotional Dyadic Motion Capture, IEMOCAP)上的实验结果表明,本方法实现了76.6%的加权平均准确率,优于现有主流方法。此外,我们还深入分析了SAWC在不同特征提取器中的具体作用行为,验证了其在提升SER鲁棒性方面的有效性。

基准测试

基准方法指标
multimodal-emotion-recognition-on-iemocap-4Self-attention weight correction (A+T)
Accuracy: 76.8
F1: 76.85

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自注意力权重修正的语音情感识别:融合声学与文本特征 | 论文 | HyperAI超神经