3 个月前

TweetEval:统一基准与推文分类的对比评估

TweetEval:统一基准与推文分类的对比评估

摘要

社交媒体领域自然语言处理的实验研究格局过于碎片化。每年都会涌现出新的共享任务与数据集,涵盖从情感分析这类经典任务,到讽刺检测、表情符号预测等新兴课题。由于缺乏统一的评估协议,也未建立在该领域特定数据上训练的强有力基线模型,当前技术的最先进水平尚不明确。本文提出了一种新的评估框架——TweetEval,包含七个针对推特(Twitter)文本的异构分类任务。我们还提供了一套强大的基线模型作为研究起点,并系统比较了多种语言建模预训练策略的效果。初步实验结果表明,以现有的通用预训练语言模型为起点,并在推特语料上继续进行微调,能够有效提升模型性能。

代码仓库

cardiffnlp/tweeteval
官方
GitHub 中提及

基准测试

基准方法指标
sentiment-analysis-on-tweetevalFastText
ALL: 58.1
Emoji: 25.8
Emotion: 65.2
Hate: 50.6
Irony: 63.1
Offensive: 73.4
Sentiment: 62.9
Stance: 65.4
sentiment-analysis-on-tweetevalRoBERTa-Base
ALL: 61.3
Emoji: 30.9
Emotion: 76.1
Hate: 46.6
Irony: 59.7
Offensive: 79.5
Sentiment: 71.3
Stance: 68
sentiment-analysis-on-tweetevalSVM
ALL: 53.5
Emoji: 29.3
Emotion: 64.7
Hate: 36.7
Irony: 61.7
Offensive: 52.3
Sentiment: 62.9
Stance: 67.3
sentiment-analysis-on-tweetevalRoBERTa-Twitter
ALL: 61.0
Emoji: 29.3
Emotion: 72.0
Hate: 49.9
Irony: 65.4
Offensive: 77.1
Sentiment: 69.1
Stance: 66.7
sentiment-analysis-on-tweetevalLSTM
ALL: 56.5
Emoji: 24.7
Emotion: 66.0
Hate: 52.6
Irony: 62.8
Offensive: 71.7
Sentiment: 58.3
Stance: 59.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TweetEval:统一基准与推文分类的对比评估 | 论文 | HyperAI超神经