3 个月前

基于词性记忆网络的中文分词性能提升

基于词性记忆网络的中文分词性能提升

摘要

上下文特征在中文分词(CWS)任务中始终扮演着重要角色。词性信息作为其中一种上下文特征,已被证明在多种传统的基于字符的分词器中具有显著效果。然而,在近年来的神经网络模型中,这一特征却受到较少关注,且如何将来自不同词性度量方法的词性信息有效整合到现有神经框架中,仍是一个具有挑战性的问题。为此,本文提出一种新型神经框架——WMSeg,该框架利用记忆网络机制,将词性信息与多种主流的编码器-解码器组合相结合,用于中文分词。在五个基准数据集上的实验结果表明,记忆机制能够有效建模词性信息,显著提升神经分词器的性能,使WMSeg在所有数据集上均达到当前最优水平。进一步的实验与分析还验证了所提出框架对不同词性度量方法的鲁棒性,以及词性信息在跨领域场景下的高效表现。

基准测试

基准方法指标
chinese-word-segmentation-on-asWMSeg + ZEN
F1: 96.62
chinese-word-segmentation-on-cityuWMSeg + ZEN
F1: 97.93
chinese-word-segmentation-on-ctb6WMSeg + ZEN
F1: 97.25
chinese-word-segmentation-on-msrWMSeg + ZEN
F1: 98.40
chinese-word-segmentation-on-pkuWMSeg + ZEN
F1: 96.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于词性记忆网络的中文分词性能提升 | 论文 | HyperAI超神经