3 个月前

ACES:用于评估机器翻译指标的翻译准确率挑战集

ACES:用于评估机器翻译指标的翻译准确率挑战集

摘要

随着机器翻译(MT)评估指标每年在与人类判断的相关性方面持续提升,深入理解这些指标在句子级别上的局限性变得尤为重要。特别是,当机器翻译出现准确性错误时,评估指标的表现值得重点关注,因为在某些关键领域(如法律、医疗)这类错误可能带来严重后果。为此,我们构建了ACES——一个翻译准确性挑战数据集,涵盖68种不同的语言现象,从词汇/字符层面的简单扰动,到基于语篇连贯性及现实世界知识的复杂错误。我们利用ACES对多种MT评估指标进行了评估,包括参与WMT 2022评估指标共享任务的各类方法,并通过多项分析得出了面向指标开发者的通用建议:第一,应融合具有不同优势的多种评估指标;第二,应开发更重视源语言信息、减少对参考译文表面重合度依赖的评估指标;第三,应显式建模超出多语言嵌入所能提供的语言特异性信息。

代码仓库

edinburghnlp/aces
官方
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-acesHWTSC-Teacher-Sim
Score: 19.97
machine-translation-on-acesBLEURT-20
Score: 11.9
machine-translation-on-acesUniTE-ref
Score: 15.38
machine-translation-on-acesf200spBLEU
Score: -0.18
machine-translation-on-acesf101spBLEU
Score: -0.33
machine-translation-on-acesYiSi-1
Score: 11.38
machine-translation-on-acesMS-COMET-QE-22
Score: 19.76
machine-translation-on-acesCOMET-QE
Score: 16.8
machine-translation-on-acesmetricx_xxl_DA_2019
Score: 15.24
machine-translation-on-acesmetricx_xl_MQM_2020
Score: 13.08
machine-translation-on-acesmetricx_xl_DA_2019
Score: 17.17
machine-translation-on-acesBERTScore
Score: 10.47
machine-translation-on-acesUniTE
Score: 14.76
machine-translation-on-acesCross-QE
Score: 14.07
machine-translation-on-acesBLEU
Score: -3.13
machine-translation-on-acesCOMET-22
Score: 16.31
machine-translation-on-acesKG-BERTScore
Score: 17.28
machine-translation-on-aceschrF
Score: 13.57
machine-translation-on-acesUniTE-src
Score: 15.68
machine-translation-on-acesCOMET-20
Score: 12.06
machine-translation-on-acesMS-COMET-22
Score: 19.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ACES:用于评估机器翻译指标的翻译准确率挑战集 | 论文 | HyperAI超神经