
摘要
随着社交媒体平台的日益普及,仇恨言论正日益成为一大关注焦点。仇恨言论表现为针对特定群体特征(如性别、宗教或种族)的攻击性言辞,旨在煽动暴力。过去,仇恨言论主要通过口头传播,但随着技术的不断发展,部分人开始刻意利用社交媒体平台,通过发布、转发、评论等方式传播仇恨内容。无论是基督城清真寺枪击事件,还是西方针对亚裔的仇恨犯罪,相关调查均显示,涉案人员深受网络上存在的仇恨文本影响。尽管已有基于人工智能的系统用于识别此类内容,但其关键挑战之一在于降低误报率(即将非仇恨内容误判为仇恨内容),以确保在有效识别仇恨言论的同时,不损害言论自由。本文基于ETHOS仇恨言论检测数据集,通过将传统的词嵌入方法(fastText(FT)、GloVe(GV)或FT + GV的组合)替换或融合为静态BERT嵌入(BE),对仇恨言论检测分类器的性能进行了分析。经过大量实验验证,结果表明,采用静态BERT嵌入的神经网络模型在性能上优于使用FT、GV或FT + GV作为词嵌入的方法。与微调后的BERT模型相比,本方法在特异性(specificity)这一指标上取得了显著提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hate-speech-detection-on-ethos-binary | BiLSTM + static BE | Classification Accuracy: 0.8015 F1-score: 0.7971 Precision: 0.8037 |