4 个月前

基于模态感知提示的多模态意图识别中的词级对比学习

基于模态感知提示的多模态意图识别中的词级对比学习

摘要

多模态意图识别旨在利用表情、身体动作和语音语调等多种模态来理解用户的意图,这是在现实世界多模态场景中理解人类语言和行为的关键任务。然而,现有的大多数方法忽略了不同模态之间的潜在相关性,并且在从非言语模态中有效学习语义特征方面存在局限性。本文提出了一种基于模态感知提示的令牌级对比学习方法(TCL-MAP),以应对上述挑战。为了为文本模态建立最优的多模态语义环境,我们开发了一个模态感知提示模块(MAP),该模块通过基于相似性的模态对齐和跨模态注意力机制,有效地对齐并融合了来自文本、视频和音频模态的特征。基于模态感知提示和真实标签,所提出的令牌级对比学习框架(TCL)构建了增强样本,并在标签令牌上应用了NT-Xent损失函数。具体而言,TCL利用从意图标签中获得的最佳文本语义洞见来指导其他模态的学习过程。大量实验表明,我们的方法相比现有最先进方法取得了显著改进。此外,消融分析证明了模态感知提示相对于手工设计提示的优势,这对多模态提示学习具有重要意义。代码已发布在https://github.com/thuiar/TCL-MAP。

代码仓库

thuiar/TCL-MAP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multimodal-intent-recognition-on-mintrecTCL-MAP
Accuracy (20 classes): 73.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于模态感知提示的多模态意图识别中的词级对比学习 | 论文 | HyperAI超神经