Hossein AmirkhaniMohammad AzariJafariZohreh PourjafariSoroush Faridan-JahromiZeinab KouhkanAzadeh Amirak

摘要
自然语言推理(Natural Language Inference, NLI)是自然语言处理(Natural Language Processing, NLP)领域中的核心任务之一,涵盖了语言理解的诸多基本方面。随着数据驱动的深度学习方法在NLP任务中取得显著进展,研究者们投入大量精力构建适用于不同语言的多样化数据集。本文提出一个面向波斯语(即法尔西语)的NLI新数据集,该语言是中东地区的主要语言之一。该数据集命名为FarsTail,包含10,367个样本,既以波斯语形式提供,也以索引化格式呈现,便于非波斯语研究者使用。这些样本源自3,539道多项选择题,通过类似SciTail数据集的生成方式,在尽可能减少人工标注干预的前提下构建而成。为确保数据质量,我们采用了一套精心设计的多步骤流程进行数据构建与筛选。此外,本文还报告了传统方法与当前先进模型在FarsTail数据集上的实验结果,涵盖多种词嵌入方法(如word2vec、fastText、ELMo、BERT和LASER)以及不同建模方法(如DecompAtt、ESIM、HBMP和ULMFiT),旨在为未来相关研究提供可靠的基准性能。实验结果显示,最优模型在测试集上达到83.38%的准确率,表明当前方法在处理真实世界多语言NLP应用时仍有巨大提升空间。为进一步分析模型对表面线索(即数据集偏差,dataset biases)的依赖程度,本文对测试集进行了划分,依据偏差模型的预测表现将其分为“简单”与“困难”两个子集。该数据集现已开源,可通过以下链接获取:https://github.com/dml-qom/FarsTail
代码仓库
dml-qom/FarsTail
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-inference-on-farstail | HBMP + word2vec | % Test Accuracy: 66.04 |
| natural-language-inference-on-farstail | Translate-Source + fastText | % Test Accuracy: 78.13 |
| natural-language-inference-on-farstail | ESIM + fastText | % Test Accuracy: 71.16 |
| natural-language-inference-on-farstail | LSTM + BERT (concat) | % Test Accuracy: 75.83 |
| natural-language-inference-on-farstail | Decomposable Attention Model + word2vec | % Test Accuracy: 66.62 |
| natural-language-inference-on-farstail | Translate-Target + fastText | % Test Accuracy: 70.46 |
| natural-language-inference-on-farstail | mBERT | % Test Accuracy: 83.38 |
| natural-language-inference-on-farstail | ULMFiT | % Test Accuracy: 72.44 |
| natural-language-inference-on-farstail | ParsBERT | % Test Accuracy: 82.99 |
| natural-language-inference-on-farstail | ESIM + BERT (FarsTail, MultiNLI) | % Test Accuracy: 74.62 |