3 个月前

Bootleg:通过自监督命名实体消歧追踪尾部实体

Bootleg:通过自监督命名实体消歧追踪尾部实体

摘要

命名实体消歧(Named Entity Disambiguation, NED)是指将文本中的实体提及映射到知识库中对应实体的任务。该任务面临的一个挑战是如何处理在训练数据中出现频率极低的实体,即“尾部实体”(tail entities)。人类在消歧不熟悉实体时,通常依赖于对实体事实、关系及类型等知识的细微推理模式。受此启发,我们提出了 Bootleg——一种基于自监督学习的 NED 系统,其设计明确以实体消歧的推理模式为根基。我们定义了核心的消歧推理模式,并设计了一套学习机制,引导自监督模型主动学习这些模式;同时,我们提出利用弱监督方法增强训练数据中的信号。通过将这些推理模式编码至一个简洁的 Transformer 架构中,Bootleg 在三个主流 NED 基准测试上达到或超越了当前最优水平。进一步实验表明,Bootleg 学习到的实体表示具有良好的泛化能力,可成功迁移至其他依赖实体知识的非消歧任务。在广受关注的 TACRED 关系抽取任务中,Bootleg 将 F1 分数提升 1.0 点,创下新的最先进性能记录;在一家大型科技公司的实际生产级搜索与智能助手任务中,也实现了最高达 8% 的性能提升,充分验证了其在高度优化系统中的实用价值。

代码仓库

HazyResearch/bootleg
pytorch
GitHub 中提及

基准测试

基准方法指标
entity-disambiguation-on-aida-conllBootleg
Micro-F1: 96.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Bootleg:通过自监督命名实体消歧追踪尾部实体 | 论文 | HyperAI超神经