3 个月前

基于Morfessor增强的特征与多语言训练的规范形态分割

基于Morfessor增强的特征与多语言训练的规范形态分割

摘要

在我们提交至SIGMORPHON 2022共享任务(Morpheme Segmentation)的研究中,我们探讨了无监督形态分割方法Morfessor在有监督学习场景下的有效性。先前研究已表明,该方法在标注数据量较少的半监督设置中具有显著效果。然而,当前任务在数据规模上存在差异:词级标注训练数据量较大,而句级标注训练数据量仍然有限。为此,我们采用无监督方法Morfessor对神经序列到序列模型的输入数据进行预分割,以增强模型的输入表示。由于Morfessor可直接在原始文本上进行训练,我们利用维基百科数据扩充了训练语料规模。此外,针对句级任务,我们还训练了多语言模型。实验结果表明,基于Morfessor增强的特征在三个句级任务中均表现出一定优势,但在部分词级任务中效果不显著。多语言训练显著提升了句级任务的性能,优于单一语言模型,但同时也削弱了Morfessor增强特征所带来的积极作用。

基准测试

基准方法指标
morpheme-segmentaiton-on-unimorph-4-0AUUH_C
f1 macro avg (subtask 2): 70.76
lev dist (subtask 2): 35.94
morpheme-segmentaiton-on-unimorph-4-0Bidirectional GRU + Morfessor features (AUUH_F)
f1 macro avg (subtask 2): 66.73
lev dist (subtask 2): 36.35
macro avg (subtask 1): 93.72
morpheme-segmentaiton-on-unimorph-4-0AUUH_E
f1 macro avg (subtask 2): 73.21
lev dist (subtask 2): 31.05
morpheme-segmentaiton-on-unimorph-4-0AUUH_D
f1 macro avg (subtask 2): 72.75
lev dist (subtask 2): 36.38
morpheme-segmentaiton-on-unimorph-4-0AUUH_B
f1 macro avg (subtask 2): 89.77
lev dist (subtask 2): 3.50
morpheme-segmentaiton-on-unimorph-4-0AUUH_A
f1 macro avg (subtask 2): 89.00
lev dist (subtask 2): 4.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Morfessor增强的特征与多语言训练的规范形态分割 | 论文 | HyperAI超神经