
摘要
本文提出 HateBERT,一种针对英语仇恨语言检测任务重新训练的 BERT 模型。该模型基于我们收集并公开发布的大型数据集 RAL-E 进行训练,该数据集包含来自因辱骂性、攻击性或仇恨言论而被封禁的 Reddit 社群的英文评论。我们对通用预训练语言模型与通过在被封禁社群帖子上重新训练所得的偏向攻击性语言的模型版本,在三个英语数据集上进行了详细的对比实验,涵盖冒犯性语言、攻击性语言及仇恨言论检测任务。实验结果表明,在所有数据集上,HateBERT 均显著优于对应的通用 BERT 模型。此外,我们还开展了一系列实验,系统比较了通用预训练语言模型与其对应的攻击性语言偏向版本在不同数据集间的迁移性能,结果表明模型的可迁移性受到标注现象之间兼容性的影响。
代码仓库
tommasoc80/HateBERT
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hate-speech-detection-on-abuseval | HateBERT | Macro F1: 0.742 |
| hate-speech-detection-on-abuseval | BERT | Macro F1: 0.724 |
| hate-speech-detection-on-hateval | BERT | Macro F1: 0.48 |
| hate-speech-detection-on-hateval | HateBERT | Macro F1: 0.494 |
| hate-speech-detection-on-offenseval-2019 | HateBERT | Macro F1: 0.805 |
| hate-speech-detection-on-offenseval-2019 | BERT | Macro F1: 0.803 |