
摘要
直观上,对于象形文字语言(如中文)的自然语言处理任务而言,利用这些语言中的字形信息应该会带来益处。然而,由于字形中缺乏丰富的象形证据以及标准计算机视觉模型在字符数据上的泛化能力较弱,如何有效利用字形信息仍然是一个待解决的问题。本文通过介绍Glyce——一种用于中文字符表示的字形向量——来填补这一空白。我们主要进行了三项创新:(1) 使用历史中文书写系统(如金文、篆书、繁体字等)来丰富字符中的象形证据;(2) 设计了专门针对中文字符图像处理的卷积神经网络结构(称为天则格CNN);(3) 在多任务学习框架中引入图像分类作为辅助任务,以增强模型的泛化能力。我们展示了基于字形的模型能够在广泛的中文自然语言处理任务中持续优于基于词/字符ID的模型。我们为多种中文自然语言处理任务设定了新的最先进结果,包括命名实体识别(NER)、中文分词(CWS)、词性标注(POS)、句子对分类、单句分类任务、依存句法分析和语义角色标注。例如,所提出的模型在OntoNotes命名实体识别数据集上达到了80.6的F1分数,比BERT高出1.5分;在复旦大学文本分类语料库上实现了接近完美的99.8%准确率。代码可在https://github.com/ShannonAI/glyce 获取。
代码仓库
ShannonAI/glyce
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chinese-named-entity-recognition-on-msra | Glyce + BERT | F1: 95.54 Precision: 95.57 Recall: 95.51 |
| chinese-named-entity-recognition-on-ontonotes | Glyce + BERT | F1: 80.62 Precision: 81.87 Recall: 81.4 |
| chinese-named-entity-recognition-on-resume | Glyce + BERT | F1: 96.54 Precision: 96.62 Recall: 96.48 |
| chinese-named-entity-recognition-on-weibo-ner | Glyce + BERT | F1: 67.6 Precision: 67.68 Recall: 67.71 |
| chinese-word-segmentation-on-as | Glyce + BERT | F1: 96.7 Precision: 96.6 Recall: 96.8 |
| chinese-word-segmentation-on-cityu | Glyce + BERT | F1: 97.9 Precision: 97.9 Recall: 98 |
| chinese-word-segmentation-on-msr | Glyce + BERT | F1: 98.3 Precision: 98.2 Recall: 98.3 |
| chinese-word-segmentation-on-pku | Glyce + BERT | F1: 96.7 Precision: 97.1 Recall: 96.4 |