4 个月前

大语言模型作为桥梁:重构基于多模态的命名实体识别

大语言模型作为桥梁:重构基于多模态的命名实体识别

摘要

基于图像的多模态命名实体识别(GMNER)是一项新兴的多模态任务,旨在识别命名实体、实体类型及其对应的视觉区域。GMNER任务具有两个挑战性特征:1) 社交媒体中图像与文本对之间的弱关联导致了相当一部分命名实体无法被定位。2) 粗粒度指代表达式(通常用于类似任务,如短语定位和指代表达式理解)与细粒度命名实体之间存在差异。本文提出了一种统一框架——RiVEG,通过利用大型语言模型(LLMs)作为连接桥梁,将GMNER重新定义为联合MNER-VE-VG任务。这种重新定义带来了两个优势:1) 它保持了最佳的MNER性能,并消除了使用对象检测方法预提取区域特征的需求,从而自然地解决了现有GMNER方法的两大主要局限。2) 引入了实体扩展表达式和视觉蕴含(VE)模块,统一了视觉定位(VG)和实体定位(EG)。这使得RiVEG能够轻松继承任何当前或未来多模态预训练模型的视觉蕴含和视觉定位能力。大量实验表明,RiVEG在现有的GMNER数据集上优于最先进的方法,并在所有三个子任务中分别取得了10.65%、6.21%和8.83%的绝对领先优势。

代码仓库

JinYuanLi0012/RiVEG
官方
pytorch
GitHub 中提及
jinyuanli0012/pgim
官方
pytorch

基准测试

基准方法指标
grounded-multimodal-named-entity-recognitionRiVEG
F1: 67.06

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大语言模型作为桥梁:重构基于多模态的命名实体识别 | 论文 | HyperAI超神经