
摘要
近期,多模态命名实体识别(MNER)利用图像来提高推文中命名实体识别(NER)的准确性。然而,大多数多模态方法在提取视觉线索时并未考虑文本和图像的相关性。实际上,在推文中,不相关的文本-图像对占很大比例。与文本无关的视觉线索会对多模态模型的学习产生不确定甚至负面的影响。本文中,我们提出了一种将文本-图像关系传播引入多模态BERT模型的方法。我们集成了软门控或硬门控机制来选择视觉线索,并提出了一种多任务算法以在MNER数据集上进行训练。实验中,我们深入分析了使用文本-图像关系传播前后视觉注意力的变化。我们的模型在MNER数据集上达到了最先进的性能。
代码仓库
Multimodal-NER/RpBERT
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-modal-named-entity-recognition-on | RpBERT | F1: 74.90 |
| multi-modal-named-entity-recognition-on-snap | RpBERT | F1: 87.80 |