4 个月前

SIGMORPHON 2022 形态切分共享任务

SIGMORPHON 2022 形态切分共享任务

摘要

2022年SIGMORPHON共享任务中的词素切分挑战了系统将单词分解为一系列词素的能力,涵盖了大多数类型的形态学:复合词、派生词和屈折变化。子任务1,即词级别的词素切分,涉及9种语言(捷克语、英语、西班牙语、匈牙利语、法语、意大利语、俄语、拉丁语和蒙古语)中的500万个单词,并收到了来自7个团队的13个系统提交。其中最佳系统的F1分数在所有语言中平均达到97.29%,范围从英语的93.84%到拉丁语的99.38%。子任务2,即句级别的词素切分,涉及3种语言(捷克语、英语和蒙古语)中的18,735个句子,并收到了来自3个团队的10个系统提交。最佳系统在绝对性能上超过了所有三种最先进的子词切分方法(字节对编码BPE、无监督语言模型ULM和Morfessor2),提高了30.71%。为了便于错误分析并支持未来的研究,我们发布了所有系统的预测结果、评估脚本以及所有黄金标准数据集。

基准测试

基准方法指标
morpheme-segmentaiton-on-unimorph-4-0WordPiece
f1 macro avg (subtask 2): 40.59
lev dist (subtask 2): 17.54
macro avg (subtask 1): 15.89
morpheme-segmentaiton-on-unimorph-4-0Morfessor2
f1 macro avg (subtask 2): 50.65
lev dist (subtask 2): 12.08
macro avg (subtask 1): 25.57
morpheme-segmentaiton-on-unimorph-4-0ULM
f1 macro avg (subtask 2): 45.99
lev dist (subtask 2): 14.28
macro avg (subtask 1): 20.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SIGMORPHON 2022 形态切分共享任务 | 论文 | HyperAI超神经