4 个月前

MemeCLIP:利用CLIP表示进行多模态表情包分类

MemeCLIP:利用CLIP表示进行多模态表情包分类

摘要

文本嵌入图像的复杂性在机器学习中构成了一个严峻的挑战,因为需要对这些图像所传达的多种表达方式进行多模态理解。尽管先前在多模态分析领域的研究主要集中在单一方面,如仇恨言论及其子类,本研究扩展了这一关注点,涵盖了语言学的多个方面:仇恨、仇恨目标、立场和幽默。我们引入了一个新的数据集PrideMM,该数据集包含5,063个与LGBTQ+骄傲运动相关的文本嵌入图像,从而填补了现有资源中的一个重要空白。我们在PrideMM上进行了广泛的实验,使用单模态和多模态基线方法为每项任务建立了基准。此外,我们提出了一种新的框架MemeCLIP,旨在在保留预训练CLIP模型知识的同时实现高效的下游学习。实验结果表明,MemeCLIP在两个真实世界的数据集上相较于之前提出的框架表现出更优的性能。我们进一步比较了MemeCLIP和零样本GPT-4在仇恨分类任务上的表现。最后,通过定性分析错误分类的样本,我们讨论了模型的不足之处。我们的代码和数据集已公开发布于:https://github.com/SiddhantBikram/MemeCLIP。

代码仓库

siddhantbikram/memeclip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
hateful-meme-classification-on-pridemmMemeCLIP
Accuracy: 76.1
F1: 75.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MemeCLIP:利用CLIP表示进行多模态表情包分类 | 论文 | HyperAI超神经