
摘要
最先进的序列标注系统通常需要大量的任务特定知识,这些知识以手工设计的特征和数据预处理的形式存在。在本文中,我们介绍了一种新颖的神经网络架构,该架构通过结合双向长短期记忆(LSTM)、卷积神经网络(CNN)和条件随机场(CRF),能够自动从词级和字符级表示中获益。我们的系统真正实现了端到端,无需任何特征工程或数据预处理,因此适用于广泛的序列标注任务。我们在两个数据集上对系统进行了评估:一个是用于词性标注(POS)的宾夕法尼亚树库WSJ语料库,另一个是用于命名实体识别(NER)的CoNLL 2003语料库。结果表明,我们的系统在这两个任务上均达到了最先进水平——词性标注的准确率为97.55%,命名实体识别的F1值为91.21%。
代码仓库
akurniawan/pytorch-sequence-tagger
pytorch
GitHub 中提及
aonotas/deep-crf
GitHub 中提及
sarthakTUM/progressive-neural-networks-for-nlp
pytorch
GitHub 中提及
soujanyaporia/aspect-extraction
tf
GitHub 中提及
IBM/MAX-Named-Entity-Tagger
tf
GitHub 中提及
SNUDerek/multiLSTM
tf
GitHub 中提及
bestend/tf2-bi-lstm-crf-nni
tf
GitHub 中提及
SenticNet/aspect-extraction
tf
GitHub 中提及
guillaumegenthial/tf_ner
tf
GitHub 中提及
achernodub/targer
pytorch
GitHub 中提及
aymara/lima-tfner
tf
GitHub 中提及
monologg/korean-ner-pytorch
pytorch
GitHub 中提及
guillaumegenthial/sequence_tagging
tf
GitHub 中提及
autoih/runtime_ner
tf
GitHub 中提及
uahmad235/NER-Deep-Learning
GitHub 中提及
epwalsh/pytorch-crf
pytorch
GitHub 中提及
EeshaanJain/natural-language-processing
GitHub 中提及
gpandu/NER_DNN
GitHub 中提及
gitzgk/nlp-beginner
tf
GitHub 中提及
riedlma/sequence_tagging
tf
GitHub 中提及
Akshayanti/supersense-sequence-labelling
GitHub 中提及
XiafeiYu/CNN_BILSTM_CRF
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-conll-2003 | BLSTM-CNN-CRF | F1: 91.21 |
| named-entity-recognition-on-conll | BiLSTM-CNN-CRF | F1: 91.87 |
| part-of-speech-tagging-on-penn-treebank | BLSTM-CNN-CRF | Accuracy: 97.55 |