4 个月前

Glyce：用于中文字符表示的字形向量

Yuxian Meng; Wei Wu; Fei Wang; Xiaoya Li; Ping Nie; Fan Yin; Muyu Li; Qinghong Han; Xiaofei Sun; Jiwei Li

摘要

直观上，对于象形文字语言（如中文）的自然语言处理任务而言，利用这些语言中的字形信息应该会带来益处。然而，由于字形中缺乏丰富的象形证据以及标准计算机视觉模型在字符数据上的泛化能力较弱，如何有效利用字形信息仍然是一个待解决的问题。本文通过介绍Glyce——一种用于中文字符表示的字形向量——来填补这一空白。我们主要进行了三项创新：(1) 使用历史中文书写系统（如金文、篆书、繁体字等）来丰富字符中的象形证据；(2) 设计了专门针对中文字符图像处理的卷积神经网络结构（称为天则格CNN）；(3) 在多任务学习框架中引入图像分类作为辅助任务，以增强模型的泛化能力。我们展示了基于字形的模型能够在广泛的中文自然语言处理任务中持续优于基于词/字符ID的模型。我们为多种中文自然语言处理任务设定了新的最先进结果，包括命名实体识别（NER）、中文分词（CWS）、词性标注（POS）、句子对分类、单句分类任务、依存句法分析和语义角色标注。例如，所提出的模型在OntoNotes命名实体识别数据集上达到了80.6的F1分数，比BERT高出1.5分；在复旦大学文本分类语料库上实现了接近完美的99.8%准确率。代码可在https://github.com/ShannonAI/glyce 获取。

代码仓库

ShannonAI/glyce

官方

pytorch

GitHub 中提及

zhangyuwangumass/Glyph-based-Chinese-Character-Embedding

GitHub 中提及

基准测试

基准	方法	指标
chinese-named-entity-recognition-on-msra	Glyce + BERT	F1: 95.54 Precision: 95.57 Recall: 95.51
chinese-named-entity-recognition-on-ontonotes	Glyce + BERT	F1: 80.62 Precision: 81.87 Recall: 81.4
chinese-named-entity-recognition-on-resume	Glyce + BERT	F1: 96.54 Precision: 96.62 Recall: 96.48
chinese-named-entity-recognition-on-weibo-ner	Glyce + BERT	F1: 67.6 Precision: 67.68 Recall: 67.71
chinese-word-segmentation-on-as	Glyce + BERT	F1: 96.7 Precision: 96.6 Recall: 96.8
chinese-word-segmentation-on-cityu	Glyce + BERT	F1: 97.9 Precision: 97.9 Recall: 98
chinese-word-segmentation-on-msr	Glyce + BERT	F1: 98.3 Precision: 98.2 Recall: 98.3
chinese-word-segmentation-on-pku	Glyce + BERT	F1: 96.7 Precision: 97.1 Recall: 96.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供