6 个月前

摘要

随着社交媒体平台的日益普及，仇恨言论正日益成为一大关注焦点。仇恨言论表现为针对特定群体特征（如性别、宗教或种族）的攻击性言辞，旨在煽动暴力。过去，仇恨言论主要通过口头传播，但随着技术的不断发展，部分人开始刻意利用社交媒体平台，通过发布、转发、评论等方式传播仇恨内容。无论是基督城清真寺枪击事件，还是西方针对亚裔的仇恨犯罪，相关调查均显示，涉案人员深受网络上存在的仇恨文本影响。尽管已有基于人工智能的系统用于识别此类内容，但其关键挑战之一在于降低误报率（即将非仇恨内容误判为仇恨内容），以确保在有效识别仇恨言论的同时，不损害言论自由。本文基于ETHOS仇恨言论检测数据集，通过将传统的词嵌入方法（fastText（FT）、GloVe（GV）或FT + GV的组合）替换或融合为静态BERT嵌入（BE），对仇恨言论检测分类器的性能进行了分析。经过大量实验验证，结果表明，采用静态BERT嵌入的神经网络模型在性能上优于使用FT、GV或FT + GV作为词嵌入的方法。与微调后的BERT模型相比，本方法在特异性（specificity）这一指标上取得了显著提升。

源 PDF