4 个月前

多模态Transformer用于非对齐多模态语言序列

多模态Transformer用于非对齐多模态语言序列

摘要

人类语言通常是多模态的,包括自然语言、面部表情和声学行为的混合。然而,在建模此类多模态人类语言时间序列数据时存在两个主要挑战:1)由于每种模态的序列采样率不同,导致数据固有的非对齐问题;2)跨模态元素之间的长距离依赖关系。在本文中,我们引入了多模态变压器(Multimodal Transformer, MulT),以端到端的方式解决上述问题,而无需显式对齐数据。我们的模型核心是方向性成对跨模态注意力机制,该机制关注不同时间步长之间多模态序列的交互,并隐式地将一种模态的数据流适应到另一种模态。在对齐和非对齐多模态时间序列上的全面实验表明,我们的模型大幅优于现有方法。此外,实证分析表明,所提出的MulT中的跨模态注意力机制能够捕捉相关联的跨模态信号。

代码仓库

JhnLee/multimodal-transformer
pytorch
GitHub 中提及
yaohungt/Multimodal-Transformer
官方
pytorch
GitHub 中提及
kenford953/graphcage
pytorch
GitHub 中提及
pliang279/MFN
pytorch
GitHub 中提及

基准测试

基准方法指标
multimodal-sentiment-analysis-on-mosiMulT
Accuracy: 83
F1 score: 82.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态Transformer用于非对齐多模态语言序列 | 论文 | HyperAI超神经