6 个月前

摘要

本文旨在为情感识别与情感分析任务提供一种轻量化 yet 强大的新解决方案。我们的研究动机在于提出两种基于Transformer架构并融合调制机制的模型，能够整合来自多种数据集的语言与语音输入，以挑战甚至超越当前该领域的最先进水平。为充分验证所提模型的高效性，我们在IEMOCAP、MOSI、MOSEI和MELD等多个公开数据集上进行了细致的性能评估。实验结果可直接复现，相关代码已完全开源，以支持未来的研究工作。

源 PDF