4 个月前

CDLM:跨文档语言模型

CDLM:跨文档语言模型

摘要

我们介绍了一种新的预训练方法,专门用于多文档语言建模,该方法在掩码语言模型的自监督目标中融入了两个关键思想。首先,我们不再孤立地考虑单个文档,而是对多个相关文档的集合进行预训练,鼓励模型学习跨文档的关系。其次,我们在最近的长距离变换器基础上进行了改进,引入了动态全局注意力机制(dynamic global attention),该机制可以访问整个输入以预测被掩码的标记。我们发布了CDLM(Cross-Document Language Model),这是一种新的通用语言模型,适用于多文档场景,并且可以轻松应用于下游任务。我们的详细分析表明,这两个思想对于CDLM的成功至关重要,并且协同作用,在多个多文本任务上取得了新的最先进成果。代码和模型可在https://github.com/aviclu/CDLM 获取。

代码仓库

aviclu/CD-LM
官方
pytorch
GitHub 中提及
aviclu/cdlm
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CDLM:跨文档语言模型 | 论文 | HyperAI超神经