4 个月前

Trankit:一种轻量级基于Transformer的多语言自然语言处理工具包

Trankit:一种轻量级基于Transformer的多语言自然语言处理工具包

摘要

我们介绍了Trankit,一个基于Transformer的轻量级多语言自然语言处理(NLP)工具包。它为100多种语言提供了可训练的基础NLP任务管道,并为56种语言预训练了90个管道。基于最先进的预训练语言模型,Trankit在句子分割、词性标注、形态特征标注和依存句法分析等基础NLP任务上显著优于先前的多语言NLP管道,同时在90个通用依存树库上的分词、多词标记扩展和词形还原任务中保持了竞争力。尽管使用了大型预训练Transformer模型,我们的工具包在内存使用和速度方面仍然表现出高效性。这是通过我们创新的插件机制实现的,该机制利用适配器(Adapters),使得一个多语言预训练Transformer可以在不同语言的管道之间共享。我们的工具包及其预训练模型和代码已公开发布于:https://github.com/nlp-uoregon/trankit。此外,我们还提供了一个演示网站:http://nlp.uoregon.edu/trankit。最后,我们为Trankit制作了一个演示视频,地址为:https://youtu.be/q0KGP3zGjGc。

代码仓库

nlp-uoregon/trankit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dependency-parsing-on-ud2-5-testTrankit
Macro-averaged F1: 87.06
dependency-parsing-on-ud2-5-testStanza
Macro-averaged F1: 83.06
part-of-speech-tagging-on-ud2-5-testTrankit
Macro-averaged F1: 95.65
part-of-speech-tagging-on-ud2-5-testStanza
Macro-averaged F1: 94.21

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Trankit:一种轻量级基于Transformer的多语言自然语言处理工具包 | 论文 | HyperAI超神经