
摘要
句法简化领域的进展一直受到缺乏标注平行简化数据的阻碍,尤其是在英语以外的语言中。我们介绍了MUSS(Multilingual Unsupervised Sentence Simplification),一种无需标注简化数据的多语言无监督句法简化系统。MUSS采用了一种新颖的句法简化方法,利用句子级别的同义替换数据而非专门的简化数据来训练强大的模型。这些模型通过无监督预训练和可控生成机制,在推理时灵活调整诸如长度和词汇复杂度等属性。我们进一步提出了一种方法,可以使用语义句子嵌入从Common Crawl中挖掘任何语言的同义替换数据,从而消除了对标注数据的需求。我们在英语、法语和西班牙语的简化基准上评估了我们的方法,并在未使用任何标注简化数据的情况下,接近或超过了之前最佳的有监督结果。通过结合标注简化数据,我们将这一领域的技术水平进一步提升。
代码仓库
facebookresearch/muss
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-simplification-on-asset | MUSS (BART+ACCESS Unsupervised) | FKGL: 8.23 SARI (EASSEu003e=0.2.1): 42.65 |
| text-simplification-on-asset | MUSS (BART+ACCESS Supervised) | BLEU: 72.98 FKGL: 6.05 SARI (EASSEu003e=0.2.1): 44.15 |
| text-simplification-on-turkcorpus | MUSS (BART+ACCESS Unsupervised) | FKGL: 8.79 SARI (EASSEu003e=0.2.1): 40.85 |
| text-simplification-on-turkcorpus | MUSS (BART+ACCESS Supervised) | BLEU: 78.17 FKGL: 7.60 SARI (EASSEu003e=0.2.1): 42.53 |