8 个月前

自然语言处理

自然语言处理

Shizhe Diao; Jiaxin Bai; Yan Song; Tong Zhang; Yonggang Wang

摘要

文本编码器的预训练通常将文本处理为一系列的标记，这些标记对应于较小的文本单元，例如在英语中为词片段，在汉语中为字符。这种方法忽略了较大文本粒度所携带的信息，因此编码器难以适应某些字符组合。这导致了重要语义信息的丢失，对于汉语而言尤为严重，因为汉语没有明确的词边界。本文提出了一种基于BERT的汉语（Z）文本编码器——ZEN，该编码器通过N元语法表示增强了对不同字符组合的考虑。因此，在训练过程中显式地预训练和微调了潜在的词或短语边界与字符编码器（BERT）。这样一来，ZEN融合了字符序列及其包含的词或短语的全面信息。实验结果表明，ZEN在一系列汉语自然语言处理任务上表现出有效性。我们展示了ZEN使用比其他已发表编码器更少的资源，在大多数任务上可以达到最先进的性能。此外，当ZEN在一个小型语料库上进行训练时也能获得合理的性能，这对于将预训练技术应用于数据有限的情境非常重要。ZEN的代码和预训练模型可在https://github.com/sinovation/zen 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Shizhe Diao; Jiaxin Bai; Yan Song; Tong Zhang; Yonggang Wang

摘要

文本编码器的预训练通常将文本处理为一系列的标记，这些标记对应于较小的文本单元，例如在英语中为词片段，在汉语中为字符。这种方法忽略了较大文本粒度所携带的信息，因此编码器难以适应某些字符组合。这导致了重要语义信息的丢失，对于汉语而言尤为严重，因为汉语没有明确的词边界。本文提出了一种基于BERT的汉语（Z）文本编码器——ZEN，该编码器通过N元语法表示增强了对不同字符组合的考虑。因此，在训练过程中显式地预训练和微调了潜在的词或短语边界与字符编码器（BERT）。这样一来，ZEN融合了字符序列及其包含的词或短语的全面信息。实验结果表明，ZEN在一系列汉语自然语言处理任务上表现出有效性。我们展示了ZEN使用比其他已发表编码器更少的资源，在大多数任务上可以达到最先进的性能。此外，当ZEN在一个小型语料库上进行训练时也能获得合理的性能，这对于将预训练技术应用于数据有限的情境非常重要。ZEN的代码和预训练模型可在https://github.com/sinovation/zen 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供