
摘要
多模态意图识别是理解现实世界多模态场景中人类语言的重要任务。现有的大多数意图识别方法由于基准数据集仅包含文本信息的限制,难以充分利用多模态信息。本文介绍了一个新的多模态意图识别数据集(MIntRec),以解决这一问题。该数据集基于电视剧《超市大战》(Superstore)收集的数据,制定了粗粒度和细粒度的意图分类体系。数据集包含2,224个高质量样本,涵盖文本、视频和音频三种模态,并对二十种意图类别进行了多模态注释。此外,我们为每个视频片段中的说话者提供了标注的边界框,并实现了说话者注释的自动化过程。MIntRec有助于研究人员挖掘不同模态之间的关系,从而增强意图识别的能力。我们从每种模态中提取特征,并通过适应三种强大的多模态融合方法来建模跨模态交互,构建基线模型。广泛的实验表明,利用非言语模态相比仅使用文本模态取得了显著改进,证明了在意图识别中使用多模态信息的有效性。最佳方法与人类表现之间的差距表明了这一任务对于社区的挑战性和重要性。完整的数据集和代码可在https://github.com/thuiar/MIntRec获取。
代码仓库
thuiar/mintrec
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-intent-recognition-on-mintrec | MulT (Text + Audio + Video) | Accuracy (20 classes): 72.52 Accuracy (Binary): 89.19 |
| multimodal-intent-recognition-on-mintrec | Human | Accuracy (20 classes): 85.51 Accuracy (Binary): 94.72 |
| multimodal-intent-recognition-on-mintrec | MAG-BERT (Text + Audio + Video) | Accuracy (20 classes): 72.65 Accuracy (Binary): 89.24 |
| multimodal-intent-recognition-on-mintrec | MISA (Text + Audio + Video) | Accuracy (20 classes): 72.29 Accuracy (Binary): 89.21 |