4 个月前

MUSS:通过挖掘同义句实现多语言无监督句子简化

MUSS:通过挖掘同义句实现多语言无监督句子简化

摘要

句法简化领域的进展一直受到缺乏标注平行简化数据的阻碍,尤其是在英语以外的语言中。我们介绍了MUSS(Multilingual Unsupervised Sentence Simplification),一种无需标注简化数据的多语言无监督句法简化系统。MUSS采用了一种新颖的句法简化方法,利用句子级别的同义替换数据而非专门的简化数据来训练强大的模型。这些模型通过无监督预训练和可控生成机制,在推理时灵活调整诸如长度和词汇复杂度等属性。我们进一步提出了一种方法,可以使用语义句子嵌入从Common Crawl中挖掘任何语言的同义替换数据,从而消除了对标注数据的需求。我们在英语、法语和西班牙语的简化基准上评估了我们的方法,并在未使用任何标注简化数据的情况下,接近或超过了之前最佳的有监督结果。通过结合标注简化数据,我们将这一领域的技术水平进一步提升。

代码仓库

facebookresearch/muss
官方
GitHub 中提及

基准测试

基准方法指标
text-simplification-on-assetMUSS (BART+ACCESS Unsupervised)
FKGL: 8.23
SARI (EASSEu003e=0.2.1): 42.65
text-simplification-on-assetMUSS (BART+ACCESS Supervised)
BLEU: 72.98
FKGL: 6.05
SARI (EASSEu003e=0.2.1): 44.15
text-simplification-on-turkcorpusMUSS (BART+ACCESS Unsupervised)
FKGL: 8.79
SARI (EASSEu003e=0.2.1): 40.85
text-simplification-on-turkcorpusMUSS (BART+ACCESS Supervised)
BLEU: 78.17
FKGL: 7.60
SARI (EASSEu003e=0.2.1): 42.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MUSS:通过挖掘同义句实现多语言无监督句子简化 | 论文 | HyperAI超神经