
摘要
一种句法语言模型(SLM)以从左到右的方式逐步生成带有其句法树的句子。本文介绍了生成预训练结构化变换器(GPST),这是一种大规模的无监督SLM,可以从原始文本中从零开始进行高并行度的预训练。GPST克服了以往SLM的局限性,例如依赖于金标准树和顺序训练。它由两个组件组成:一个通常的SLM,通过单向语言建模损失进行监督;以及一个额外的组合模型,该模型诱导句法分析树并计算成分表示,通过双向语言建模损失进行监督。我们提出了一种表示替代方法,以实现这两个模型在硬期望最大化(EM)方式下的联合并行训练。我们在包含90亿个标记的OpenWebText语料库上对GPST进行了预训练,并在涵盖语言理解和语言生成的多个任务中展示了GPST相对于具有相似规模的GPT-2的优势。同时,GPST在从左到右语法归纳方面也显著优于现有的无监督SLM,并且在训练速度上实现了大幅加速。
代码仓库
alipay/StructuredLM_RTDT
pytorch
GitHub 中提及
ant-research/structuredlm_rtdt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| constituency-grammar-induction-on-ptb | GPST(left to right parsing) | Mean F1 (WSJ): 55.2 |
| natural-language-inference-on-multinli | GPST(unsupervised generative syntactic LM) | Matched: 81.8 Mismatched: 82.0 |