4 个月前

ZEN:基于N-gram表示的预训练中文文本编码器增强方法

ZEN:基于N-gram表示的预训练中文文本编码器增强方法

摘要

文本编码器的预训练通常将文本处理为一系列的标记,这些标记对应于较小的文本单元,例如在英语中为词片段,在汉语中为字符。这种方法忽略了较大文本粒度所携带的信息,因此编码器难以适应某些字符组合。这导致了重要语义信息的丢失,对于汉语而言尤为严重,因为汉语没有明确的词边界。本文提出了一种基于BERT的汉语(Z)文本编码器——ZEN,该编码器通过N元语法表示增强了对不同字符组合的考虑。因此,在训练过程中显式地预训练和微调了潜在的词或短语边界与字符编码器(BERT)。这样一来,ZEN融合了字符序列及其包含的词或短语的全面信息。实验结果表明,ZEN在一系列汉语自然语言处理任务上表现出有效性。我们展示了ZEN使用比其他已发表编码器更少的资源,在大多数任务上可以达到最先进的性能。此外,当ZEN在一个小型语料库上进行训练时也能获得合理的性能,这对于将预训练技术应用于数据有限的情境非常重要。ZEN的代码和预训练模型可在https://github.com/sinovation/zen 获取。

代码仓库

SVAIGBA/WMSeg
pytorch
GitHub 中提及
sinovation/ZEN
官方
pytorch
GitHub 中提及
YYGe01/ZEN
pytorch
GitHub 中提及
cuhksz-nlp/SAPar
pytorch
GitHub 中提及
cuhksz-nlp/mcasp
pytorch
GitHub 中提及
SVAIGBA/TwASP
pytorch
GitHub 中提及
cuhksz-nlp/het-mc
pytorch
GitHub 中提及

基准测试

基准方法指标
chinese-named-entity-recognition-on-msraZEN (Init with Chinese BERT)
F1: 95.25
chinese-named-entity-recognition-on-msraZEN (Random Init)
F1: 93.24
chinese-word-segmentation-on-msrZEN (Random Init)
F1: 97.89
chinese-word-segmentation-on-msrZEN (Init with Chinese BERT)
F1: 98.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ZEN:基于N-gram表示的预训练中文文本编码器增强方法 | 论文 | HyperAI超神经