3 个月前

机器阅读理解的协作式自训练

机器阅读理解的协作式自训练

摘要

预训练语言模型显著提升了下游语言理解任务的性能,包括抽取式问答任务,主要得益于其提供的高质量上下文相关词向量。然而,训练问答模型仍需大量特定领域的标注数据。为此,本文提出一种协作式自训练框架RGX,用于自动生成更具挑战性的问题-答案对,以进一步提升模型性能。RGX基于掩码答案提取任务构建,其交互式学习环境包含答案实体识别器(Answer Entity Recognizer)、问题生成器(Question Generator)和答案提取器(Answer Extractor)。给定一个包含掩码实体的文本段落,生成器会围绕该实体生成相应问题,而提取器则在生成问题与原始文本的共同作用下,被训练以准确提取被掩码的实体。该框架无需任何标注数据,即可在任意文本语料库上训练问题生成与问答模型。实验结果表明,RGX在标准问答基准测试中超越了当前最先进的预训练语言模型及迁移学习方法,在给定模型规模和迁移学习设置下,取得了新的最先进(SOTA)性能。

代码仓库

luohongyin/RGX
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-mrqa-out-of-domainRGX
Average F1: 68.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
机器阅读理解的协作式自训练 | 论文 | HyperAI超神经