3 个月前

WikiGUM:12种文体中的全面实体链接用于维基化

WikiGUM:12种文体中的全面实体链接用于维基化

摘要

先前的实体链接(Entity Linking)研究主要聚焦于非嵌套专有命名实体指代的资源,通常基于维基百科数据,即所谓的“维基化”(Wikification)任务。本文提出并评估了WikiGUM,这是一个全面完成维基化的数据集,涵盖了所有类型的命名实体指代,包括非命名实体指代、代词指代以及嵌套于其他指代之中的实体指代。该数据集覆盖了12种广泛的语言体裁,既包括书面语也包括口语,其中大多数体裁此前未被纳入实体链接研究范畴,导致我们在评估中发现预训练的最先进(SOTA)系统在该数据集上表现不佳。此外,该数据集还提供了多种其他标注信息,为在具体语境中开展实体相关研究提供了有力支持。

基准测试

基准方法指标
entity-linking-on-gumbaseline
F1: 26.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WikiGUM:12种文体中的全面实体链接用于维基化 | 论文 | HyperAI超神经