3 个月前

音译对多语言语言建模有帮助吗?

音译对多语言语言建模有帮助吗?

摘要

脚本多样性对多语言语言模型(Multilingual Language Models, MLLM)构成了挑战,因为它降低了语义上密切相关语言之间的词汇重叠度。因此,将使用不同书写系统的密切关联语言通过音译转换至统一书写系统,可能有助于提升MLLM在下游任务中的性能。本文通过实证方法系统评估了音译对MLLM的影响。研究聚焦于全球脚本多样性最高的印地语族语言(Indic languages),并在IndicGLUE基准测试上评估模型表现。为严谨验证音译效果是否具有统计显著性,我们采用Mann-Whitney U检验进行分析。实验结果表明,音译显著提升了低资源语言的性能,同时未对资源相对丰富的语言造成负面影响。此外,我们利用FLORES-101数据集中平行语句的中心核对齐(centered kernel alignment, CKAs)方法,测量了模型的跨语言表征相似性。结果发现,在不同语言的平行句对上,基于音译的模型所学习到的句子表征具有更高的相似性。

代码仓库

基准测试

基准方法指标
multiple-choice-qa-on-indicglue-wstp-paxlmindic-base-uniscript
Accuracy: 77.55
multiple-choice-qa-on-indicglue-wstp-paxlmindic-base-multiscript
Accuracy: 74.33
news-classification-on-bbc-hindi-news-articlexlmindic-base-multiscript
Accuracy: 77.28
news-classification-on-bbc-hindi-news-articlexlmindic-base-uniscript
Accuracy: 79.14
news-classification-on-soham-news-articlexlmindic-base-multiscript
Accuracy: 93.22
news-classification-on-soham-news-articlexlmindic-base-uniscript
Accuracy: 93.89
sentiment-analysis-on-iitp-movie-reviewsxlmindic-base-uniscript
Accuracy: 66.34
sentiment-analysis-on-iitp-movie-reviewsxlmindic-base-multiscript
Accuracy: 65.91
sentiment-analysis-on-iitp-product-reviewsxlmindic-base-multiscript
Accuracy: 76.33
sentiment-analysis-on-iitp-product-reviewsxlmindic-base-uniscript
Accuracy: 77.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
音译对多语言语言建模有帮助吗? | 论文 | HyperAI超神经