
摘要
我们介绍了一种通过使用双向LSTM(长短期记忆网络)组合字符来构建词向量表示的模型。与传统词表示模型为每个词型分配独立向量不同,我们的模型仅需要每个字符类型一个向量以及一组固定的组合模型参数。尽管该模型具有紧凑性,更重要的是,语言中的形式-功能关系具有任意性,但我们的“组合”词表示在语言建模和词性标注任务中仍取得了最先进的结果。与传统基线方法相比,该模型在形态丰富的语言(如土耳其语)中表现出更大的优势。
代码仓库
wlin12/JNN
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| part-of-speech-tagging-on-penn-treebank | Char Bi-LSTM | Accuracy: 97.78 |
| part-of-speech-tagging-on-penn-treebank | Bi-LSTM | Accuracy: 97.36 |