
摘要
我们介绍了一种新的预训练方法,专门用于多文档语言建模,该方法在掩码语言模型的自监督目标中融入了两个关键思想。首先,我们不再孤立地考虑单个文档,而是对多个相关文档的集合进行预训练,鼓励模型学习跨文档的关系。其次,我们在最近的长距离变换器基础上进行了改进,引入了动态全局注意力机制(dynamic global attention),该机制可以访问整个输入以预测被掩码的标记。我们发布了CDLM(Cross-Document Language Model),这是一种新的通用语言模型,适用于多文档场景,并且可以轻松应用于下游任务。我们的详细分析表明,这两个思想对于CDLM的成功至关重要,并且协同作用,在多个多文本任务上取得了新的最先进成果。代码和模型可在https://github.com/aviclu/CDLM 获取。
代码仓库
aviclu/CD-LM
官方
pytorch
GitHub 中提及
aviclu/cdlm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-document-language-modeling-on-multinews | CD-LM | Perplexity: 1.69 |
| cross-document-language-modeling-on-multinews | Longformer | Perplexity: 2.03 |
| cross-document-language-modeling-on-multinews | Rand CD-LM | Perplexity: 1.88 |
| cross-document-language-modeling-on-multinews-1 | CD-LM | Perplexity: 1.76 |
| cross-document-language-modeling-on-multinews-1 | Rand CD-LM | Perplexity: 1.93 |
| cross-document-language-modeling-on-multinews-1 | Longformer | Perplexity: 2.34 |