3 个月前

CLUZH 在 SIGMORPHON 2022 共享任务中的词素分割与词形变化生成表现

CLUZH 在 SIGMORPHON 2022 共享任务中的词素分割与词形变化生成表现

摘要

本文介绍了苏黎世大学计算语言学系团队在SIGMORPHON 2022共享任务中关于词素分割与词形变化生成的参赛成果。我们的参赛方法采用了一种基于字符级别的神经转导器(neural transducer),其操作基于传统的编辑动作(edit actions)。尽管该模型在低资源场景下表现出色,但将其应用于大规模数据时仍面临挑战。现有实现方式难以充分利用GPU加速,且未能高效支持小批量训练(mini-batch training),这对基于转移(transition-based)的系统而言尤为困难。针对今年的参赛任务,我们已将神经转导器迁移至PyTorch框架,并实现了真正的小批量训练机制。这一改进使得模型能够有效扩展至大规模数据集,并支持广泛的实验验证。在词素分割任务中,我们取得了具有竞争力的成果(在挑战任务第二部分中并列获得第一名)。我们还证明,将句子级词素分割问题简化为词级问题,是一种简单但极为有效的策略。在词形变化生成任务中,我们也取得了优异成绩:在第一部分的大规模训练集设置下获得整体最佳结果;在第二部分的低资源学习轨迹中同样取得最优表现。所有实验代码均已公开发布,可供社区使用。

基准测试

基准方法指标
morpheme-segmentaiton-on-unimorph-4-0CLUZH-1
f1 macro avg (subtask 2): 87.68
lev dist (subtask 2): 5.69
morpheme-segmentaiton-on-unimorph-4-0Ensemble of hard-attention transducers (CLUZH)
macro avg (subtask 1): 96.85
morpheme-segmentaiton-on-unimorph-4-0CLUZH-3
f1 macro avg (subtask 2): 88.14
lev dist (subtask 2): 5.58
morpheme-segmentaiton-on-unimorph-4-0CLUZH-2
f1 macro avg (subtask 2): 87.93
lev dist (subtask 2): 5.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLUZH 在 SIGMORPHON 2022 共享任务中的词素分割与词形变化生成表现 | 论文 | HyperAI超神经