4 个月前

多注意力循环网络用于人类交流理解

多注意力循环网络用于人类交流理解

摘要

人类面对面交流是一种复杂的多模态信号。我们通过语言(语言模态)、手势(视觉模态)和音调变化(声学模态)来传达我们的意图。尽管人类能够轻松地处理和理解这种交流方式,但对人工智能(AI)而言,理解这种形式的交流仍然是一个重大挑战。AI必须理解每个模态以及它们之间的相互作用,这些相互作用塑造了人类的交流过程。在本文中,我们提出了一种用于理解人类交流的新颖神经架构,称为多注意循环网络(Multi-attention Recurrent Network, MARN)。该模型的主要优势在于通过时间发现各模态之间相互作用的神经组件——多注意块(Multi-attention Block, MAB),并将这些相互作用存储在循环组件的混合记忆中——长短期混合记忆(Long-short Term Hybrid Memory, LSTHM)。我们在六个公开可用的数据集上进行了广泛的比较实验,涉及多模态情感分析、说话者特质识别和情绪识别。实验结果表明,MARN在这所有数据集上均表现出当前最先进的性能。

代码仓库

pliang279/MFN
pytorch
GitHub 中提及
clin366/MFN
pytorch
GitHub 中提及

基准测试

基准方法指标
multimodal-sentiment-analysis-on-mosiMARN
Accuracy: 77.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多注意力循环网络用于人类交流理解 | 论文 | HyperAI超神经