
摘要
我们研究了一种基于格状结构的LSTM模型用于中文命名实体识别(NER),该模型不仅编码输入字符序列,还编码所有与词典匹配的潜在词汇。与基于字符的方法相比,我们的模型显式利用了词汇和词汇序列信息。而与基于词汇的方法相比,格状LSTM不会受到分词错误的影响。门控循环单元使我们的模型能够从句子中选择最相关的字符和词汇,从而获得更好的NER结果。在多个数据集上的实验表明,格状LSTM优于基于词汇和基于字符的LSTM基线方法,取得了最佳效果。
代码仓库
jiesutd/LatticeLSTM
官方
pytorch
GitHub 中提及
Houlong66/lattice_lstm_with_pytorch
pytorch
GitHub 中提及
LeeSureman/Batch_Parallel_LatticeLSTM
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chinese-named-entity-recognition-on-msra | Lattice | F1: 93.18 |
| chinese-named-entity-recognition-on-ontonotes | Lattice | F1: 73.88 |
| chinese-named-entity-recognition-on-resume | Lattice | F1: 94.46 |
| chinese-named-entity-recognition-on-weibo-ner | Lattice | F1: 58.79 |