3 个月前

ThaiLMCut:面向泰语分词的无监督预训练

ThaiLMCut:面向泰语分词的无监督预训练

摘要

我们提出了一种名为ThaiLMCut的半监督泰国语分词方法,该方法利用双向字符语言模型(LM)从无标注数据中挖掘有用的语言学知识。在语言模型于大规模无标注语料上完成训练后,将其嵌入层和循环层的权重迁移至一个有监督的分词模型中,并在分词任务上继续进行微调。实验结果表明,引入语言模型始终能够带来性能提升,尤其在标注数据较少的情况下,F1分数最高可提升2.02%。即使在大规模标注数据集上,仍能获得小幅但稳定的性能增益。此外,该方法在跨领域(out-of-domain)场景下也表现出显著优势,F1分数最高提升达3.13%。最终,我们证明ThaiLMCut能够超越其他开源的先进模型,在标准基准数据集InterBEST2009上取得98.78%的F1分数,达到当前最佳水平。

基准测试

基准方法指标
thai-word-tokenization-on-best-2010ThaiLMCut
F1-Score: 0.9878

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ThaiLMCut:面向泰语分词的无监督预训练 | 论文 | HyperAI超神经