3 个月前

JamPatoisNLI:一个牙买加帕托伊语自然语言推理数据集

JamPatoisNLI:一个牙买加帕托伊语自然语言推理数据集

摘要

JamPatoisNLI 是首个针对克里奥尔语——牙买加帕托伊语(Jamaican Patois)的自然语言推理(Natural Language Inference, NLI)数据集。全球使用人数最多的许多低资源语言均为克里奥尔语。这类语言的词汇通常源自一种主要的世界语言,而其语法结构则体现了原始使用者语言的影响以及语言形成过程中克里奥化(creolization)的特征。这使得克里奥尔语在探究大规模单语或双语预训练模型向其他语言迁移的有效性方面具有独特地位。尽管我们的研究以及以往的工作表明,将这些预训练模型迁移到与其训练语料中语言无关联的低资源语言时,迁移效果有限,但我们预期其在克里奥尔语上的迁移表现会更为出色。事实上,实验结果表明,针对 JamPatoisNLI 的少样本学习(few-shot learning)性能显著优于对非相关语言的迁移效果,这有助于我们初步理解克里奥尔语与其高资源母语之间独特关系对跨语言迁移的影响机制。JamPatoisNLI 数据集由自然语料中提取的前提(premises)和专家撰写的假设(hypotheses)构成,标志着推动对这一长期被忽视的语言开展研究的重要一步,同时也为理解跨语言自然语言处理(NLP)提供了有价值的基准。

基准测试

基准方法指标
natural-language-inference-on-jampatoisnlibert-uncased-unfrozen
Accuracy: 66.17
natural-language-inference-on-jampatoisnliroberta-unfrozen
Accuracy: 76.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
JamPatoisNLI:一个牙买加帕托伊语自然语言推理数据集 | 论文 | HyperAI超神经