
摘要
社交媒体领域自然语言处理的实验研究格局过于碎片化。每年都会涌现出新的共享任务与数据集,涵盖从情感分析这类经典任务,到讽刺检测、表情符号预测等新兴课题。由于缺乏统一的评估协议,也未建立在该领域特定数据上训练的强有力基线模型,当前技术的最先进水平尚不明确。本文提出了一种新的评估框架——TweetEval,包含七个针对推特(Twitter)文本的异构分类任务。我们还提供了一套强大的基线模型作为研究起点,并系统比较了多种语言建模预训练策略的效果。初步实验结果表明,以现有的通用预训练语言模型为起点,并在推特语料上继续进行微调,能够有效提升模型性能。
代码仓库
cardiffnlp/tweeteval
官方
GitHub 中提及
jinhxu/how-much-hate-with-china
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-tweeteval | FastText | ALL: 58.1 Emoji: 25.8 Emotion: 65.2 Hate: 50.6 Irony: 63.1 Offensive: 73.4 Sentiment: 62.9 Stance: 65.4 |
| sentiment-analysis-on-tweeteval | RoBERTa-Base | ALL: 61.3 Emoji: 30.9 Emotion: 76.1 Hate: 46.6 Irony: 59.7 Offensive: 79.5 Sentiment: 71.3 Stance: 68 |
| sentiment-analysis-on-tweeteval | SVM | ALL: 53.5 Emoji: 29.3 Emotion: 64.7 Hate: 36.7 Irony: 61.7 Offensive: 52.3 Sentiment: 62.9 Stance: 67.3 |
| sentiment-analysis-on-tweeteval | RoBERTa-Twitter | ALL: 61.0 Emoji: 29.3 Emotion: 72.0 Hate: 49.9 Irony: 65.4 Offensive: 77.1 Sentiment: 69.1 Stance: 66.7 |
| sentiment-analysis-on-tweeteval | LSTM | ALL: 56.5 Emoji: 24.7 Emotion: 66.0 Hate: 52.6 Irony: 62.8 Offensive: 71.7 Sentiment: 58.3 Stance: 59.4 |