8 个月前

摘要

尽管 Transformer 模型在机器阅读理解任务中取得了显著进展，但在处理复杂推理任务时仍存在不足，主要原因是输入序列中缺乏显式知识。为了解决这一局限性，许多近期的研究提出了将外部知识注入模型的方法。然而，选择相关外部知识、确保其可用性以及需要额外的处理步骤仍然是挑战。本文介绍了一种新颖的注意力模式，该模式无需依赖外部知识即可将从异构图中提取的推理知识整合到 Transformer 架构中。所提出的注意力模式包含三个关键要素：针对单词标记的全局-局部注意力、针对实体标记的图注意力（该注意力对图中连接的标记表现出强烈的关注，而对未连接的标记则不然），以及考虑每个实体标记与单词标记之间的关系类型。如果两者之间存在关系，则可以实现优化的注意力分配。该模式结合了特殊的相对位置标签，使其能够与LUKE的实体感知自注意力机制相融合。实验结果证实，我们的模型在两个不同的数据集上均优于最先进的LUKE-Graph模型和基线LUKE模型：ReCoRD数据集强调常识推理，而WikiHop数据集则专注于多跳推理挑战。

源 PDF