6 个月前

摘要

实体是知识表示与聚合的核心。例如，维基百科等百科全书正是以实体为结构单位（每篇维基百科文章对应一个实体）。在知识密集型任务（如实体链接和开放域问答）中，根据查询准确检索出相应实体是一项基础性能力。当前的方法通常被理解为在原子标签（每个实体对应一个标签）之间进行分类，其模型权重向量是通过编码实体元信息（如描述文本）生成的稠密实体表示。然而，该方法存在若干局限：（i）上下文与实体之间的关联性主要依赖向量点积来捕捉，可能忽略细粒度的交互关系；（ii）在处理大规模实体集合时，需存储大量稠密表示，导致内存开销巨大；（iii）训练过程中必须精心采样一组“硬负样本”（hard negatives），增加了训练复杂度。在本研究中，我们提出GENRE——首个通过自回归方式逐词、从左至右生成实体唯一名称来实现实体检索的系统。该方法有效缓解了上述技术挑战：（i）自回归建模形式天然捕捉了上下文与实体名称之间的关联，实现了上下文与名称的显式交叉编码；（ii）内存开销显著降低，因为所采用的编码器-解码器架构参数量仅与词汇表规模相关，而非实体数量；（iii）采用softmax损失函数时无需对负样本进行子采样。我们在超过20个数据集上对实体消歧、端到端实体链接以及文档检索任务进行了实验，取得了新的最先进（SOTA）或极具竞争力的性能表现，同时仅需竞争对手系统约一小部分的内存占用。最后，我们证明，只需指定新实体的名称，即可轻松将其加入系统。代码与预训练模型详见：https://github.com/facebookresearch/GENRE。

源 PDF