4 个月前

Hate-CLIPper:基于CLIP特征跨模态交互的多模态仇恨表情包分类

Hate-CLIPper:基于CLIP特征跨模态交互的多模态仇恨表情包分类

摘要

仇恨表情包在社交媒体上正成为一个日益严重的威胁。虽然表情包中的图像和相应的文字是相关的,但它们在单独观看时并不一定传达相同的意义。因此,检测仇恨表情包需要仔细考虑视觉和文本信息。多模态预训练对于这项任务是有益的,因为它通过将图像和文本表示在同一特征空间中,有效地捕捉了二者之间的关系。此外,通过中间融合建模图像和文本特征之间的交互也是至关重要的。现有的大多数方法要么采用多模态预训练,要么采用中间融合,但很少同时使用这两种方法。在这项工作中,我们提出了Hate-CLIPper架构,该架构通过特征交互矩阵(Feature Interaction Matrix, FIM)显式地建模使用对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)编码器获得的图像和文本表示之间的跨模态交互。基于FIM表示的简单分类器在Hateful Memes Challenge(HMC)数据集上实现了85.8的AUROC(Area Under the Receiver Operating Characteristic curve),这一成绩甚至超过了人类的表现82.65。在其他表情包数据集如Propaganda Memes和TamilMemes上的实验也证明了所提出方法的泛化能力。最后,我们分析了FIM表示的可解释性,并展示了跨模态交互确实有助于有意义概念的学习。本工作的代码可在https://github.com/gokulkarthik/hateclipper 获取。

代码仓库

gokulkarthik/hateclipper
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
hateful-meme-classification-on-harm-phateclipper
Accuracy: 87.6
F1: 86.9
hateful-meme-classification-on-harmemeHate-CLIPper
AUROC: 91.87
Accuracy: 83.90
hateful-meme-classification-on-pridemmHateCLIPper
Accuracy: 75.5
F1: 74.1
meme-classification-on-hateful-memesHate-CLIPper - Align
ROC-AUC: 0.858
meme-classification-on-multioffHateCLIPper
Accuracy: 62.4
F1: 54.8
meme-classification-on-tamil-memesHate-CLIPper
Micro-F1: 0.59

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Hate-CLIPper:基于CLIP特征跨模态交互的多模态仇恨表情包分类 | 论文 | HyperAI超神经