
摘要
仇恨表情包已成为互联网上的一个重要问题。检测仇恨表情包需要系统同时理解图像和文本模态。我们的研究发现,现有的基于CLIP的系统在嵌入空间中缺乏对细微差异的敏感度,而这些差异对于正确的仇恨分类至关重要。我们提出通过检索引导的对比训练构建一个具有仇恨意识的嵌入空间。该方法在HatefulMemes数据集上取得了87.0的AUROC(Area Under Receiver Operating Characteristic Curve),优于许多更大规模的微调多模态模型。我们展示了一个基于检索的仇恨表情包检测系统,该系统能够根据未在训练中出现的数据识别仇恨内容。这使得开发人员可以通过简单地添加新示例来更新仇恨表情包检测系统,而无需重新训练,这是在互联网上不断演变的仇恨表情包环境中实际服务所需的理想特性。
代码仓库
JingbiaoMei/RGCL
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hateful-meme-classification-on-harm-p | RGCL | Accuracy: 89.9 F1: 89.5 |
| hateful-meme-classification-on-harmeme | RGCL | AUROC: 91.80 Accuracy: 87.00 |
| hateful-meme-classification-on-pridemm | RGCL | Accuracy: 76.3 F1: 76.5 |
| meme-classification-on-hateful-memes | RGCL (CLIP) | Accuracy: 0.788 ROC-AUC: 0.870 |
| meme-classification-on-multioff | RGCL | Accuracy: 67.1 F1: 58.1 |