3 个月前

多语言自回归实体链接

多语言自回归实体链接

摘要

我们提出了mGENRE,这是一种用于多语言实体链接(Multilingual Entity Linking, MEL)问题的序列到序列(sequence-to-sequence)系统——该任务旨在将特定语言中的提及(mention)映射到多语言知识库(Knowledge Base, KB)中的目标实体。对于给定语言中的一个提及,mGENRE采用自回归(autoregressive)方式,从左到右逐token地预测目标实体的名称。这种自回归建模方式使得系统能够高效地跨编码提及字符串与实体名称,从而捕捉比传统方法中提及向量与实体向量之间的点积运算更为丰富的交互信息。此外,该方法无需依赖大规模向量索引或提及表中的预存提及,即可在大型知识库中实现快速检索。与以往MEL方法仅对每个实体使用单一表示不同,mGENRE在匹配过程中尽可能利用多种语言的实体名称,从而有效挖掘源语言输入与目标实体名称之间的语言关联性。更重要的是,在完全无训练数据的零样本(zero-shot)场景下,mGENRE将目标语言视为一个在预测阶段进行边缘化(marginalized)的隐变量,显著提升了模型的泛化能力。实验结果表明,该方法在平均准确率上实现了超过50%的性能提升。我们通过在三个主流MEL基准数据集上的大量实验,充分验证了所提方法的有效性。mGENRE在各项任务中均取得了新的最先进(state-of-the-art)性能。相关代码与预训练模型已开源,详见:https://github.com/facebookresearch/GENRE。

代码仓库

facebookresearch/GENRE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
entity-disambiguation-on-mewsli-9mGENRE
Micro Precision: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多语言自回归实体链接 | 论文 | HyperAI超神经