3 个月前

重新审视非英语文本简化:一个统一的多语言基准

重新审视非英语文本简化:一个统一的多语言基准

摘要

近年来,高质量、大规模英文语料资源的进展推动了英语自动文本简化(Automatic Text Simplification, ATS)研究的前沿发展。然而,由于缺乏涵盖多种语言中复杂句—简单句配对的多样化评估基准,多语言文本简化研究仍相对不足。本文提出了MultiSim基准,该基准包含12种不同语言的27个资源,涵盖超过170万对复杂句—简单句,旨在促进更高效多语言文本简化模型及评估指标的研发。我们利用预训练多语言语言模型在MultiSim上的实验表明,在非英语语境下,多语言训练带来了显著的性能提升。尤其值得注意的是,俄语在零样本跨语言迁移至低资源语言时表现出强劲性能。此外,我们进一步证明,使用BLOOM-176b进行少量样本提示(few-shot prompting)即可达到与参考简化文本相当的质量,在大多数语言中甚至优于微调模型。上述发现已通过人工评估得到验证。

代码仓库

xenonmolecule/multisim
官方
tf
GitHub 中提及

基准测试

基准方法指标
text-simplification-on-wikilargefrmT5 (fine-tuned on MULTI-SIM)
SARI: 39.23

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视非英语文本简化:一个统一的多语言基准 | 论文 | HyperAI超神经