6 个月前

音频和语音处理

and Masato Akagi Kiyoaki Shirai Bagus Tris Atmaja

摘要

情感识别可基于多种模态实现自动化。本文提出了一种基于语音特征与词嵌入（word embedding）的分类式语音情感识别方法。文本特征可与语音特征相结合以提升情感识别的准确性，且这两类特征均可从语音中提取。在本研究中，通过去除话语中的静音段，获取语音片段，并从中提取声学特征用于基于语音的情感识别。词嵌入被用作文本情感识别的输入特征，同时提出将语音与文本特征联合使用，以提升整体性能。在模型结构上，采用两层单向长短期记忆网络（LSTM）处理文本特征，而声学特征则通过全连接网络进行处理。随后，通过早期融合（early fusion）方式，利用全连接网络将两个分支的输出进行合并，最终输出四个情感类别之一的预测结果。实验结果表明，语音与文本特征的联合使用在识别准确率上显著优于单一模态：联合模型达到75.49%的准确率，显著高于仅使用语音特征的58.29%，也优于仅使用文本特征的68.01%。该结果在相同数据集与相同模态条件下，也优于此前其他研究者提出的方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

and Masato Akagi Kiyoaki Shirai Bagus Tris Atmaja

摘要

情感识别可基于多种模态实现自动化。本文提出了一种基于语音特征与词嵌入（word embedding）的分类式语音情感识别方法。文本特征可与语音特征相结合以提升情感识别的准确性，且这两类特征均可从语音中提取。在本研究中，通过去除话语中的静音段，获取语音片段，并从中提取声学特征用于基于语音的情感识别。词嵌入被用作文本情感识别的输入特征，同时提出将语音与文本特征联合使用，以提升整体性能。在模型结构上，采用两层单向长短期记忆网络（LSTM）处理文本特征，而声学特征则通过全连接网络进行处理。随后，通过早期融合（early fusion）方式，利用全连接网络将两个分支的输出进行合并，最终输出四个情感类别之一的预测结果。实验结果表明，语音与文本特征的联合使用在识别准确率上显著优于单一模态：联合模型达到75.49%的准确率，显著高于仅使用语音特征的58.29%，也优于仅使用文本特征的68.01%。该结果在相同数据集与相同模态条件下，也优于此前其他研究者提出的方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供