
摘要
尽管变压器模型在机器阅读理解任务中取得了显著进展,但在处理复杂推理任务时仍存在不足,主要原因是输入序列中缺乏显式知识。为了解决这一局限性,许多近期的研究提出了将外部知识注入模型的方法。然而,选择相关外部知识、确保其可用性以及需要额外的处理步骤仍然是挑战。本文介绍了一种新颖的注意力模式,该模式无需依赖外部知识即可将从异构图中提取的推理知识整合到变压器架构中。所提出的注意力模式包含三个关键要素:针对单词标记的全局-局部注意力、针对实体标记的图注意力(该注意力对图中连接的标记表现出强烈的关注,而对未连接的标记则不然),以及考虑每个实体标记与单词标记之间的关系类型。如果两者之间存在关系,则可以实现优化的注意力分配。该模式结合了特殊的相对位置标签,使其能够与LUKE的实体感知自注意力机制相融合。实验结果证实,我们的模型在两个不同的数据集上均优于最先进的LUKE-Graph模型和基线LUKE模型:ReCoRD数据集强调常识推理,而WikiHop数据集则专注于多跳推理挑战。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-record | GESA 500M | EM: 91.7 F1: 92.2 |