3 个月前

LATTE:基于网格的注意力编码用于基于字符的词分割

LATTE:基于网格的注意力编码用于基于字符的词分割

摘要

一个字符序列可能包含一个或多个分词候选路径,这种现象可被视为分词歧义,可能削弱分词模型的性能。有效处理此类歧义有助于减少词边界判断上的不确定性。以往研究通过引入词图(lattice)结构,在图模型和预训练模型的辅助下,显著提升了分词性能并缓解了歧义问题,因为词图能够有效捕捉多种分词可能性。然而,现有方法在利用词图中所编码的多粒度信息(包括字符级与词级信息)方面仍显不足,未能充分挖掘其潜在价值。为增强词图中多粒度表征的表达能力,本文提出一种基于词图的注意力编码方法——Lattice ATTentive Encoding(LATTE),用于基于字符的分词任务。该模型利用词图结构处理分词歧义,结合图神经网络(Graph Neural Networks)与注意力机制,从词图中精准提取多粒度表征,以补充和增强字符级表示。实验结果表明,所提方法在中文(BCCWJ)、中文(CTB6)和泰语(BEST2010)三个语种的多个数据集上均取得了显著的分词性能提升,尤其在日语、中文和泰语任务中表现突出。

基准测试

基准方法指标
chinese-word-segmentation-on-ctb6LATTE (Linguistic units, lattices, PTMs, GNNs)
F1: 98.07
japanese-word-segmentation-on-bccwjLATTE (Linguistic units, lattices, PTMs, GNNs)
F1-score (Word): 0.9936
thai-word-tokenization-on-best-2010LATTE (Linguistic units, lattices, PTMs, GNNs)
F1-Score: 0.9907

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LATTE:基于网格的注意力编码用于基于字符的词分割 | 论文 | HyperAI超神经