
摘要
边界信息对于各种中文语言处理任务至关重要,例如分词、词性标注和命名实体识别。以往的研究通常依赖高质量的外部词典,其中词典条目可以提供明确的边界信息。然而,为了保证词典的质量,往往需要大量的人力投入,这一点在以往的研究中常常被忽视。在本研究中,我们建议使用无监督统计边界信息,并提出了一种架构,将该信息直接编码到预训练语言模型中,从而产生了边界感知BERT(BABERT)。我们将BABERT应用于中文序列标注任务的特征诱导。实验结果表明,在十个中文序列标注基准数据集上,BABERT能够为所有数据集带来一致的性能提升。此外,我们的方法可以补充先前的有监督词典探索,在与外部词典信息结合时可进一步提高性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chinese-word-segmentation-on-ctb6 | BABERT | F1: 97.45 |
| chinese-word-segmentation-on-ctb6 | BABERT-LE | F1: 97.56 |
| chinese-word-segmentation-on-msr | BABERT-LE | F1: 98.63 |
| chinese-word-segmentation-on-msr | BABERT | F1: 98.44 |
| chinese-word-segmentation-on-msra | BABERT | F1: 98.44 |
| chinese-word-segmentation-on-msra | BABERT-LE | F1: 98.63 |
| chinese-word-segmentation-on-pku | BABERT-LE | F1: 96.84 |
| chinese-word-segmentation-on-pku | BABERT | F1: 96.70 |