
摘要
仇恨表情包已成为互联网上的重大关切问题,亟需构建强大的自动化检测系统。尽管视觉语言模型(LMMs)在仇恨表情包检测任务中展现出一定潜力,但仍面临性能欠佳及跨领域泛化能力有限等显著挑战。近期研究进一步揭示了在该场景下,标准微调(SFT)与上下文学习(in-context learning)方法在LMMs应用中的固有局限性。为应对上述问题,本文提出一种鲁棒的适应性框架,用于仇恨表情包检测,该框架在提升模型在领域内准确率的同时,显著增强跨领域泛化能力,且有效保留了LMMs原有的通用视觉-语言理解能力。在六个表情包分类数据集上的实验结果表明,所提方法达到了当前最优性能,甚至超越了参数量更大的智能体系统(agentic systems)。此外,相较于标准SFT方法,本方法生成的解释性推理过程(rationales)质量更高,能够更清晰地揭示仇恨内容的判断依据,显著提升了模型的可解释性。
代码仓库
JingbiaoMei/RGCL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hateful-meme-classification-on-harm-p | LMM-RGCL (Qwen2-VL-7B) | Accuracy: 91.6 F1: 91.1 |
| hateful-meme-classification-on-harmeme | LMM-RGCL (Qwen2VL-7B) | AUROC: 93.2 Accuracy: 88.1 |
| hateful-meme-classification-on-harmeme | LMM-RGCL (Qwen2VL-2B) | AUROC: 92.9 Accuracy: 87.7 |
| hateful-meme-classification-on-hateful-memes-1 | LMM-RGCL (Qwen2-VL-7B) | AUROC: 91.1 |
| hateful-meme-classification-on-pridemm | LMM-RGCL (Qwen2-VL-2B) | Accuracy: 76.0 F1: 76.7 |
| hateful-meme-classification-on-pridemm | LMM-RGCL (Qwen2-VL-7B) | Accuracy: 78.1 F1: 78.4 |
| meme-classification-on-hateful-memes | LMM-RGCL (Qwen2-VL-7B) | Accuracy: 0.821 ROC-AUC: 0.911 |
| meme-classification-on-hateful-memes | LMM-RGCL (LLaVA-1.5-7B) | Accuracy: 0.809 ROC-AUC: 0.897 |
| meme-classification-on-hateful-memes | LMM-RGCL (Qwen2-VL-2B) | Accuracy: 0.791 ROC-AUC: 0.884 |
| meme-classification-on-multioff | LMM-RGCL (Qwen2-VL-7B) | Accuracy: 71.1 F1: 64.8 |