8 个月前

Vladislav Mikhailov Tatiana Shamardina Max Ryabinin Alena Pestova Ivan Smurov Ekaterina Artemova

摘要

语言可接受性（Linguistic Acceptability, LA）因其多种用途而受到研究界的广泛关注，例如用于测试语言模型的语法知识以及通过可接受性分类器过滤不可信的文本。然而，由于缺乏高质量资源，LA在英语以外的语言中的应用范围受到了限制。为此，我们介绍了从零开始构建的俄语语言可接受性语料库（Russian Corpus of Linguistic Acceptability, RuCoLA），该语料库基于成熟的二元LA方法。RuCoLA包含来自语言学出版物的9800个领域内句子和由生成模型产生的3600个领域外句子。创建领域外数据集旨在促进可接受性的实际应用，以改进语言生成。本文描述了数据收集协议，并对使用多种基线方法进行的可接受性分类实验进行了细致分析。特别是，我们展示了最广泛使用的语言模型在检测形态学和语义错误方面仍远落后于人类。我们发布了RuCoLA、实验代码和一个公开排行榜（rucola-benchmark.com），以评估俄语语言模型的语言能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Vladislav Mikhailov Tatiana Shamardina Max Ryabinin Alena Pestova Ivan Smurov Ekaterina Artemova

摘要

语言可接受性（Linguistic Acceptability, LA）因其多种用途而受到研究界的广泛关注，例如用于测试语言模型的语法知识以及通过可接受性分类器过滤不可信的文本。然而，由于缺乏高质量资源，LA在英语以外的语言中的应用范围受到了限制。为此，我们介绍了从零开始构建的俄语语言可接受性语料库（Russian Corpus of Linguistic Acceptability, RuCoLA），该语料库基于成熟的二元LA方法。RuCoLA包含来自语言学出版物的9800个领域内句子和由生成模型产生的3600个领域外句子。创建领域外数据集旨在促进可接受性的实际应用，以改进语言生成。本文描述了数据收集协议，并对使用多种基线方法进行的可接受性分类实验进行了细致分析。特别是，我们展示了最广泛使用的语言模型在检测形态学和语义错误方面仍远落后于人类。我们发布了RuCoLA、实验代码和一个公开排行榜（rucola-benchmark.com），以评估俄语语言模型的语言能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供