8 个月前

多任务学习

Lucas Goncalves Seong-Gyun Leem Wei-Cheng Lin Berrak Sisman Carlos Busso

摘要

当前大多数视听情感识别模型缺乏在实际应用中部署所需的灵活性。我们设想一个能够在仅有一种模态可用时仍能工作的多模态系统，并且该系统可以互换地用于预测情感属性或识别类别情感。在多模态情感识别系统中实现这种灵活性非常困难，因为准确解释和整合不同数据源本身存在固有的挑战。同时，如何稳健地处理缺失或部分信息，以及在回归任务和分类任务之间直接切换也是一个难题。本研究提出了一种通用的视听学习（VAVL）框架，用于处理单模态和多模态系统的情感回归或情感分类任务。我们实现了一个视听框架，即使训练集的一部分没有音频和视频配对数据（即仅有音频或仅有视频），该框架也可以进行训练。通过使用视听共享层、共享层上的残差连接以及单模态重建任务，我们实现了有效的表征学习。实验结果表明，我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强大的基线模型。特别值得一提的是，VAVL在MSP-IMPROV语料库的情感属性预测任务中达到了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

Lucas Goncalves Seong-Gyun Leem Wei-Cheng Lin Berrak Sisman Carlos Busso

摘要

当前大多数视听情感识别模型缺乏在实际应用中部署所需的灵活性。我们设想一个能够在仅有一种模态可用时仍能工作的多模态系统，并且该系统可以互换地用于预测情感属性或识别类别情感。在多模态情感识别系统中实现这种灵活性非常困难，因为准确解释和整合不同数据源本身存在固有的挑战。同时，如何稳健地处理缺失或部分信息，以及在回归任务和分类任务之间直接切换也是一个难题。本研究提出了一种通用的视听学习（VAVL）框架，用于处理单模态和多模态系统的情感回归或情感分类任务。我们实现了一个视听框架，即使训练集的一部分没有音频和视频配对数据（即仅有音频或仅有视频），该框架也可以进行训练。通过使用视听共享层、共享层上的残差连接以及单模态重建任务，我们实现了有效的表征学习。实验结果表明，我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强大的基线模型。特别值得一提的是，VAVL在MSP-IMPROV语料库的情感属性预测任务中达到了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供