3 个月前

基于像素的语言建模

基于像素的语言建模

摘要

语言模型通常定义在有限的输入集合之上,当试图扩展支持的语言数量时,这一特性会导致词汇表瓶颈。解决这一瓶颈往往会在嵌入矩阵所能表示的内容与输出层的计算开销之间形成权衡。本文提出 PIXEL(Pixel-based Encoder of Language),一种克服上述两类问题的预训练语言模型。PIXEL 将文本渲染为图像,从而基于字形相似性或像素的协同激活,实现跨语言表征的迁移。与传统模型通过预测词元分布进行训练不同,PIXEL 的目标是重建被掩码图像块的像素。我们在与 BERT 相同的英文数据上预训练了一个参数量为 8600 万的 PIXEL 模型,并在多种语言类型、包括多种非拉丁字母文字的语法和语义任务上进行评估。结果表明,对于预训练数据中未包含的书写系统,PIXEL 在语法和语义处理任务上的表现显著优于 BERT;然而,在拉丁字母文字上,PIXEL 的性能略逊于 BERT。此外,我们发现 PIXEL 在面对字形攻击和语言混用(linguistic code-switching)时表现出更强的鲁棒性,进一步验证了以像素为基本单元建模语言所带来的优势。

代码仓库

xplip/pixel
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
named-entity-recognition-on-masakhanerBERT
KIN: 72.0
LUO: 73.2
AMH: 0
ENG : 92.9
HAU: 86.6
IBO: 83.5
LUG: 78.4
PCM: 87.0
Params: 110M
SWA: 83.3
WOL: 62.2
YOR: 73.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于像素的语言建模 | 论文 | HyperAI超神经