Hang LeLoïc VialJibril FrejVincent SegonneMaximin CoavouxBenjamin LecouteuxAlexandre AllauzenBenoît CrabbéLaurent BesacierDidier Schwab

摘要
语言模型已成为在众多自然语言处理(NLP)任务中实现最先进性能的关键步骤。借助当前海量的未标注文本资源,语言模型能够高效地预训练连续的词向量表示,这些表示可在下游任务中进行微调,并在句子层面实现上下文感知的语义表征。这一方法在英语语言处理任务中已得到广泛验证,例如基于上下文的表示模型(Dai 和 Le,2015;Peters 等,2018;Howard 和 Ruder,2018;Radford 等,2018;Devlin 等,2019;Yang 等,2019b)。本文提出并公开了 FlauBERT,这是一种基于大规模且多样化的法语语料库训练而成的语言模型。我们利用法国国家科学研究中心(CNRS)新部署的 Jean Zay 超级计算机,训练了多种不同规模的模型。我们将所提出的法语语言模型应用于多种NLP任务(包括文本分类、释义识别、自然语言推理、句法分析和词义消歧),结果表明,大多数情况下,FlauBERT均优于其他预训练方法。本文还向研究社区公开了 FlauBERT 的多个版本,以及一套统一的下游任务评估协议,称为 FLUE(法语语言理解评估),旨在推动法语自然语言处理领域可复现的实验研究。
代码仓库
bencrabbe/npdependency
pytorch
GitHub 中提及
getalp/disambiguate
pytorch
GitHub 中提及
ialifinaritra/text_summarization
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
getalp/Flaubert
官方
pytorch
GitHub 中提及
bourrel/French-News-Clustering
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-inference-on-xnli-french | FlauBERT (large) | Accuracy: 83.4 |
| natural-language-inference-on-xnli-french | FlauBERT (base) | Accuracy: 80.6 |