
摘要
为应对自然语言处理领域“常识推理”(Commonsense Inference in Natural Language Processing, COIN)研讨会所设立的共享任务,我们需要深入探索知识表示方法在建模常识知识中的作用,以超越简单的文本匹配,提升机器阅读理解的性能。目前,将知识表示映射至低维空间主要有两种途径:其一,利用大规模无监督文本语料库训练固定或上下文相关的语言表示模型;其二,显式地将知识构建成知识图谱(Knowledge Graph, KG),并训练模型以表征图谱中的事实信息。我们分别尝试了以下两种策略:(a)在小样本数据集上对预训练语言模型进行微调时,借助任务相似的其他数据集进行迁移学习,以提升微调效果;(b)通过简单的拼接或多头注意力机制,将知识图谱的分布表示嵌入到预训练语言模型的表示中。实验结果表明:(a)对于任务1,先在较大规模的数据集(如RACE,Lai等,2017;SWAG,Zellers等,2018)上进行初步微调,再在目标任务上进行二次微调,能显著提升模型性能;(b)对于任务2,将常识知识图谱WordNet(Miller,1995)融入BERT模型(Devlin等,2018)有助于性能提升,但该方法反而会损害XLNet(Yang等,2019)这一更强大的预训练模型的表现。我们的方法在两项共享任务的官方测试集上均取得了当前最优(state-of-the-art)的结果,显著优于所有其他参赛方案。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-record | XLNet + Verifier | EM: 81.5 F1: 82.7 |