4 个月前

面向开放领域的问答中BERT微调的数据增强

面向开放领域的问答中BERT微调的数据增强

摘要

最近,研究发现使用现成的信息检索(IR)技术进行段落检索与BERT阅读器相结合的方法在直接基于维基百科的问题回答中非常有效,相比之前的技术在标准基准数据集上取得了显著的改进。本文提出了一种利用远监督的数据增强技术,该技术同时利用正例和负例。我们采用分阶段的方法对BERT进行微调,从与测试数据“最远”的数据开始,逐步过渡到与测试数据“最近”的数据。实验结果表明,该方法在英语问题回答数据集上的效果比以往方法有大幅提高,并且我们在两个最近的中文问题回答数据集上建立了新的基准。

基准测试

基准方法指标
open-domain-question-answering-on-squad1-1BERTserini
EM: 50.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向开放领域的问答中BERT微调的数据增强 | 论文 | HyperAI超神经