3 个月前

HateXplain:面向可解释仇恨言论检测的基准数据集

HateXplain:面向可解释仇恨言论检测的基准数据集

摘要

仇恨言论是困扰在线社交媒体平台的一项严峻挑战。尽管针对仇恨言论检测的性能更优的模型不断被开发出来,但关于仇恨言论检测中偏差(bias)与可解释性(interpretability)方面的研究仍十分有限。本文提出了 HateXplain,这是首个涵盖仇恨言论问题多个维度的基准数据集。我们数据集中的每一条帖子均从三个不同视角进行标注:(1)基础且常用的三分类任务(即仇恨言论、冒犯性言论或正常内容);(2)目标群体(即帖子中遭受仇恨或冒犯性言论针对的社群);(3)推理依据(rationales),即标注决策(判定为仇恨、冒犯或正常)所依据的帖子具体语段。我们采用现有最先进的模型进行实验,发现即便某些模型在分类任务上表现优异,其在可解释性指标(如模型合理性与忠实性)上的得分却并不理想。此外,我们还观察到,那些在训练过程中引入人类提供的推理依据的模型,在降低对目标群体的无意偏见方面表现更优。我们已将代码与数据集公开发布于 https://github.com/punyajoy/HateXplain,以促进该领域研究的进一步发展。

代码仓库

hate-alert/HateXplain
pytorch
GitHub 中提及
darsh10/HateXplain-Darsh
pytorch
GitHub 中提及
Onepierre/Hate_Speech_Detection
pytorch
GitHub 中提及
punyajoy/HateXplain
官方
pytorch
GitHub 中提及
sayani-kundu/11711-HateXplain
pytorch
GitHub 中提及

基准测试

基准方法指标
hate-speech-detection-on-hatexplainCNN-GRU [LIME]
AUROC: 0.793
Accuracy: 0.629
Macro F1: 0.614
hate-speech-detection-on-hatexplainBERT [Attn]
AUROC: 0.843
Accuracy: 0.69
Macro F1: 0.674
hate-speech-detection-on-hatexplainBiRNN-HateXplain [Attn]
AUROC: 0.805
Macro F1: 0.629
hate-speech-detection-on-hatexplainBiRNN-Attn [Attn]
AUROC: 0.795
Accuracy: 0.621
hate-speech-detection-on-hatexplainBERT-HateXplain [Attn]
AUROC: 0.851
Accuracy: 0.698
Macro F1: 0.687
hate-speech-detection-on-hatexplainBERT-HateXplain [LIME]
AUROC: 0.851
Macro F1: 0.687
hate-speech-detection-on-hatexplainBiRNN [LIME]
AUROC: 0.767
Accuracy: 0.595
Macro F1: 0.575

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HateXplain:面向可解释仇恨言论检测的基准数据集 | 论文 | HyperAI超神经