3 个月前

超越字符:子词级别的语素分割

超越字符:子词级别的语素分割

摘要

本文介绍了DeepSPIN团队在SIGMORPHON 2022共享任务——词素分割(Morpheme Segmentation)中的参赛成果。我们共提交了三项参赛作品,全部针对词级(word-level)子任务。首先,我们表明基于entmax的稀疏序列到序列模型相较于传统的softmax模型在性能上实现了显著提升,这一结果与其他任务中的发现一致。其次,我们挑战了形态学任务模型应在字符层面进行训练的普遍假设,提出了一种基于Transformer的模型,该模型将词素作为由一元语言模型生成的子词(subwords)序列进行建模。该基于子词的Transformer模型在性能上超越了所有字符级模型,并成功夺得词级子任务的冠军。尽管我们未正式提交句级(sentence-level)子任务的参赛作品,但实验表明,该子词建模方法在句级任务中同样表现出极高的有效性。

基准测试

基准方法指标
morpheme-segmentaiton-on-unimorph-4-0Char LSTM (DeepSPIN-2; soft-attention, 1-5 entmax)
macro avg (subtask 1): 97.15
morpheme-segmentaiton-on-unimorph-4-0Subword-ULM transformer (DeepSPIN-3; soft-attention, 1-5 entmax)
macro avg (subtask 1): 97.29
morpheme-segmentaiton-on-unimorph-4-0Char LSTM (DeepSPIN-1; soft-attention)
macro avg (subtask 1): 96.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越字符:子词级别的语素分割 | 论文 | HyperAI超神经