
摘要
语言可接受性(Linguistic Acceptability, LA)因其多种用途而受到研究界的广泛关注,例如用于测试语言模型的语法知识以及通过可接受性分类器过滤不可信的文本。然而,由于缺乏高质量资源,LA在英语以外的语言中的应用范围受到了限制。为此,我们介绍了从零开始构建的俄语语言可接受性语料库(Russian Corpus of Linguistic Acceptability, RuCoLA),该语料库基于成熟的二元LA方法。RuCoLA包含来自语言学出版物的9800个领域内句子和由生成模型产生的3600个领域外句子。创建领域外数据集旨在促进可接受性的实际应用,以改进语言生成。本文描述了数据收集协议,并对使用多种基线方法进行的可接受性分类实验进行了细致分析。特别是,我们展示了最广泛使用的语言模型在检测形态学和语义错误方面仍远落后于人类。我们发布了RuCoLA、实验代码和一个公开排行榜(rucola-benchmark.com),以评估俄语语言模型的语言能力。
代码仓库
russiannlp/rucola
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| linguistic-acceptability-on-cola | RemBERT | MCC: 0.6 |
| linguistic-acceptability-on-itacola | mBERT | MCC: 0.36 |
| linguistic-acceptability-on-itacola | XLM-R | MCC: 0.52 |
| linguistic-acceptability-on-rucola | ruBERT | Accuracy: 74.3 MCC: 0.42 |
| linguistic-acceptability-on-rucola | RemBERT | Accuracy: 75.06 MCC: 0.44 |
| linguistic-acceptability-on-rucola | mBERT | MCC: 0.15 |
| linguistic-acceptability-on-rucola | ruGPT-3 | Accuracy: 53.82 MCC: 0.30 |
| linguistic-acceptability-on-rucola | XLM-R | Accuracy: 61.13 MCC: 0.13 |
| linguistic-acceptability-on-rucola | ruRoBERTa | Accuracy: 79.34 MCC: 0.53 |
| linguistic-acceptability-on-rucola | ruT5 | Accuracy: 68.41 MCC: 0.25 |