摘要
自然语言理解涵盖了一系列多样化的任务,包括文本蕴含判断、问答、语义相似性评估以及文档分类等。尽管大规模未标注文本语料库极为丰富,但用于学习这些特定任务的标注数据却十分稀缺,这使得判别式训练模型难以达到理想性能。我们证明,通过在多样化未标注文本语料库上对语言模型进行生成式预训练,随后在每个具体任务上进行判别式微调,可以在这些任务上实现显著提升。与以往方法不同,我们在微调阶段引入了任务感知的输入转换机制,在几乎不改变模型架构的前提下,实现了高效的迁移学习。我们在广泛的自然语言理解基准测试中验证了该方法的有效性。所提出的通用、任务无关的模型在12项任务中的9项上超越了为特定任务专门设计架构的判别式模型,显著提升了当前最优水平。例如,在常识推理任务(Stories Cloze Test)上实现8.9%的绝对性能提升,在问答任务(RACE)上提升5.7%,在文本蕴含任务(MultiNLI)上提升1.5%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-inference-on-multinli | Finetuned Transformer LM | Matched: 82.1 Mismatched: 81.4 |
| natural-language-inference-on-scitail | Finetuned Transformer LM | Accuracy: 88.3 |
| natural-language-inference-on-snli | Fine-Tuned LM-Pretrained Transformer | % Test Accuracy: 89.9 % Train Accuracy: 96.6 Parameters: 85m |
| question-answering-on-race | Finetuned Transformer LM | RACE: 59.0 RACE-h: 57.4 RACE-m: 62.9 |
| question-answering-on-storycloze | Finetuned Transformer LM | Accuracy: 86.5 |