3 个月前

平安智慧医疗与上海交通大学在COIN共享任务中的工作：在机器阅读任务中利用预训练语言模型与常识知识

{Wei Zhu Peng Gao Zheng Li Xiepeng Li Junchi Yan Yuan Ni Zhexi Zhang Guotong Xie}

摘要

为应对自然语言处理领域“常识推理”（Commonsense Inference in Natural Language Processing, COIN）研讨会所设立的共享任务，我们需要深入探索知识表示方法在建模常识知识中的作用，以超越简单的文本匹配，提升机器阅读理解的性能。目前，将知识表示映射至低维空间主要有两种途径：其一，利用大规模无监督文本语料库训练固定或上下文相关的语言表示模型；其二，显式地将知识构建成知识图谱（Knowledge Graph, KG），并训练模型以表征图谱中的事实信息。我们分别尝试了以下两种策略：（a）在小样本数据集上对预训练语言模型进行微调时，借助任务相似的其他数据集进行迁移学习，以提升微调效果；（b）通过简单的拼接或多头注意力机制，将知识图谱的分布表示嵌入到预训练语言模型的表示中。实验结果表明：（a）对于任务1，先在较大规模的数据集（如RACE，Lai等，2017；SWAG，Zellers等，2018）上进行初步微调，再在目标任务上进行二次微调，能显著提升模型性能；（b）对于任务2，将常识知识图谱WordNet（Miller，1995）融入BERT模型（Devlin等，2018）有助于性能提升，但该方法反而会损害XLNet（Yang等，2019）这一更强大的预训练模型的表现。我们的方法在两项共享任务的官方测试集上均取得了当前最优（state-of-the-art）的结果，显著优于所有其他参赛方案。

基准测试

基准	方法	指标
common-sense-reasoning-on-record	XLNet + Verifier	EM: 81.5 F1: 82.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供