3 个月前

CoordViT:一种基于坐标信息拼接的新型视觉Transformer语音情感识别方法

CoordViT:一种基于坐标信息拼接的新型视觉Transformer语音情感识别方法

摘要

近年来,在语音情感识别领域,一种基于Transformer架构、使用频谱图图像而非原始音频数据的方法,相较于卷积神经网络(CNNs)表现出更高的识别准确率。视觉Transformer(Vision Transformer, ViT)作为一种基于Transformer的模型,通过将输入图像划分为多个图像块(patches)进行处理,实现了较高的分类精度。然而,该方法存在一个关键问题:由于使用线性投影等嵌入层,导致图像中像素的位置信息在处理过程中丢失。为此,本文提出了一种新颖的基于ViT的语音情感识别方法,通过在输入图像中引入坐标信息进行拼接(coordinate information concatenation),有效保留了像素的空间位置信息。实验结果表明,该方法在CREMA-D数据集上的识别准确率相较当前最优方法显著提升至82.96%。研究结果证明,本文所提出的坐标信息拼接策略不仅适用于CNN模型,同样对Transformer架构具有显著的性能提升效果,具有广泛的应用潜力。

基准测试

基准方法指标
speech-emotion-recognition-on-crema-dCoordViT
Accuracy: 82.96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoordViT:一种基于坐标信息拼接的新型视觉Transformer语音情感识别方法 | 论文 | HyperAI超神经