
摘要
在问答(QA)领域中,一个最为关键的挑战是标注数据的稀缺性,因为获取目标文本领域的问答对(QA对)需要高昂的人工标注成本。为了解决这一问题,一种替代方法是从问题背景或大量非结构化文本(例如维基百科)中自动生成问答对。在这项工作中,我们提出了一种基于非结构化文本上下文生成问答对的分层条件变分自动编码器(HCVAE),同时最大化生成的问答对之间的互信息以确保其一致性。我们在多个基准数据集上验证了我们的信息最大化分层条件变分自动编码器(Info-HCVAE),通过仅使用生成的问答对(基于QA的评估)或结合生成和人工标注的问答对(半监督学习)来训练BERT基础模型,并与最先进的基线模型进行了对比评估。结果表明,我们的模型在这两项任务中均显著优于所有基线模型,且仅使用了少量数据进行训练。
代码仓库
seanie12/Info-HCVAE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-generation-on-natural-questions | Info-HCVAE | QAE: 37.18 R-QAE: 29.39 |
| question-generation-on-natural-questions | HCVAE | QAE: 31.45 R-QAE: 32.78 |
| question-generation-on-squad | Info-HCVAE | QAE: 71.18 R-QAE: 38.8 |
| question-generation-on-squad | HCVAE | QAE: 69.46 R-QAE: 37.57 |
| question-generation-on-triviaqa | HCVAE | QAE: 30.2 R-QAE: 34.41 |
| question-generation-on-triviaqa | Info-HCVAE | QAE: 35.45 R-QAE: 21.65 |