
摘要
我们提出了一种带有次级训练目标的序列标注框架,该框架旨在预测数据集中每个词的周围词。这一语言模型目标激励系统学习通用的语义和句法组合模式,这些模式对于提高不同序列标注任务的准确性也非常有用。该架构在多个数据集上进行了评估,涵盖了学习者文本中的错误检测、命名实体识别、分块和词性标注等任务。新颖的语言模型目标在每个基准测试中均提供了性能提升,而无需任何额外的标注或未标注数据。
代码仓库
samueljamesbell/sequence-labeler
tf
GitHub 中提及
MirunaPislar/multi-head-attention-labeller
tf
GitHub 中提及
marekrei/sequence-labeler
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| grammatical-error-detection-on-conll-2014-a1 | Bi-LSTM + LMcost (trained on FCE) | F0.5: 17.86 |
| grammatical-error-detection-on-conll-2014-a2 | Bi-LSTM + LMcost (trained on FCE) | F0.5: 25.88 |
| grammatical-error-detection-on-fce | Bi-LSTM + LMcost | F0.5: 48.48 |
| part-of-speech-tagging-on-penn-treebank | Bi-LSTM + LMcost | Accuracy: 97.43 |