
摘要
在线仇恨言论是当今社会日益凸显的问题,其蔓延速度持续加快,主要利用了当前多数社交媒体平台所固有的制度性漏洞。这一现象主要由用户互动过程中的攻击性言论,或以发布多媒体内容形式呈现的不当信息所推动。如今,大型科技企业掌控着每天数以百万计用户登录的社交平台,为防止用户暴露于此类有害内容,确保符合相关法律法规要求,并维持高水平的服务质量,建立有效的防护机制显得尤为必要。构建一个强大且可靠的系统,用于检测并阻止相关有害内容的上传,将对数字互联社会产生深远影响。我们的日常生活诸多方面都与社交身份紧密关联,这使得个体极易遭受网络暴力与不当行为的侵害。因此,若缺乏精准的仇恨言论检测机制,将严重损害整体用户体验;而检测系统的误判则可能引发诸多伦理争议。本文提出“ETHOS”——一个基于YouTube和Reddit评论构建的文本数据集,包含二分类与多标签两种形式,所有数据均通过Figure-Eight众包平台进行人工验证。此外,我们详细阐述了该数据集的标注流程:采用主动采样策略,以平衡数据在不同维度上的分布。我们的核心假设是,即便从这一耗时耗力的标注过程中仅获取少量标注数据,也足以确保在所分析内容中准确识别出仇恨言论的发生。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hate-speech-detection-on-ethos-binary | Random Forests | Classification Accuracy: 0.6504 F1-score: 0.6441 Precision: 64.69 |
| hate-speech-detection-on-ethos-binary | BiLSTM+Attention+FT | Classification Accuracy: 0.7734 F1-score: 0.768 Precision: 77.76 |
| hate-speech-detection-on-ethos-binary | BERT | Classification Accuracy: 0.7664 F1-score: 0.7883 Precision: 79.17 |
| hate-speech-detection-on-ethos-binary | SVM | Classification Accuracy: 0.6643 F1-score: 0.6607 Precision: 66.47 |
| hate-speech-detection-on-ethos-binary | CNN+Attention+FT+GV | Classification Accuracy: 0.7515 F1-score: 0.7441 Precision: 74.92 |
| hate-speech-detection-on-ethos-multilabel | Neural Classifier Chains | Hamming Loss: 0.132 |
| hate-speech-detection-on-ethos-multilabel | Neural Binary Relevance | Hamming Loss: 0.1097 |
| hate-speech-detection-on-ethos-multilabel | MLARAM | Hamming Loss: 0.2948 |
| hate-speech-detection-on-ethos-multilabel | MLkNN | Hamming Loss: 0.1606 |
| hate-speech-detection-on-ethos-multilabel | Binary Relevance | Hamming Loss: 0.1395 |