
摘要
我们提出 BERTweet,这是首个面向英文推文(English Tweets)的大规模预训练语言模型。BERTweet 的架构与 BERT-base(Devlin 等,2019)保持一致,并采用 RoBERTa 的预训练方法(Liu 等,2019)进行训练。实验结果表明,BERTweet 在三项推文自然语言处理任务——词性标注(Part-of-speech tagging)、命名实体识别(Named-entity recognition)和文本分类(text classification)上,均显著优于强基准模型 RoBERTa-base 和 XLM-R-base(Conneau 等,2020),性能超越此前的最先进模型。为促进未来在推文数据上的研究与应用,我们已将 BERTweet 在 MIT 许可证下开源,其项目地址为:https://github.com/VinAIResearch/BERTweet。
代码仓库
cardiffnlp/tweeteval
GitHub 中提及
VinAIResearch/BERTweet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-on-wnut-2016 | BERTweet | F1: 52.1 |
| named-entity-recognition-on-wnut-2017 | BERTweet | F1: 56.5 |
| part-of-speech-tagging-on-ritter | BERTweet | Acc: 90.1 |
| part-of-speech-tagging-on-tweebank | BERTweet | Acc: 95.2 |
| sentiment-analysis-on-tweeteval | BERTweet | ALL: 67.9 Emoji: 33.4 Emotion: 79.3 Irony: 82.1 Offensive: 79.5 Sentiment: 73.4 Stance: 71.2 |