
摘要
神经网络,尤其是循环神经网络的兴起,显著提升了词性标注的准确性。这些模型的一个共同特点是具有丰富的初始词编码。这些编码通常由循环字符表示和学习及预训练的词嵌入组成。然而,这些编码并未考虑超出单个词范围的上下文,只有通过后续的循环层,词或子词信息才会相互作用。在本文中,我们研究了利用句子级上下文进行初始字符和基于词的表示的循环神经网络模型。特别是,我们展示了通过同步训练一个元模型来整合这些上下文敏感表示可以取得最佳结果,该元模型学习如何结合它们的状态。我们在多种语言上进行了词性和形态学标注实验,并取得了当前最先进的性能。
代码仓库
qGentry/MetaBiLSTM
pytorch
GitHub 中提及
google/meta_tagger
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| part-of-speech-tagging-on-penn-treebank | Meta BiLSTM | Accuracy: 97.96 |