3 个月前

MuMiN:一个大规模多语言多模态事实核查虚假信息社交网络数据集

MuMiN:一个大规模多语言多模态事实核查虚假信息社交网络数据集

摘要

虚假信息在社交媒体和新闻报道中正变得日益普遍。其传播范围之广已使得我们亟需借助机器学习算法实现自动化检测。然而,训练此类机器学习模型依赖于规模大、多样性高且质量优良的数据集。目前,自动虚假信息检测领域的数据集大多为单一语言,模态种类有限,且在规模与质量上均难以满足需求。针对这一问题,我们开发了一套数据采集与关联系统(MuMiN-trawl),构建了一个公开的虚假信息图谱数据集(MuMiN)。该数据集包含丰富的社交媒体数据(包括推文、回复、用户信息、图片、新闻文章、话题标签等),覆盖2100万条推文,涉及2.6万个Twitter话题线程,每条话题线均通过语义关联方式与跨数十个主题、事件和领域、涵盖41种语言的1.3万条经过事实核查的声明相连接,时间跨度超过十余年。该数据集以异构图的形式通过一个Python工具包(mumin)提供。我们为两个与社交媒体中声明真实性相关的节点分类任务提供了基线结果,实验表明这些任务具有较高难度,两项任务的最高宏平均F1分数分别为62.55%和61.45%。MuMiN生态系统已开放发布,访问地址为:https://mumin-dataset.github.io/,包含数据集、文档、教程以及排行榜等资源。

代码仓库

MuMiN-dataset/mumin-trawl
pytorch
GitHub 中提及
MuMiN-dataset/mumin-baseline
pytorch
GitHub 中提及
MuMiN-dataset/mumin-build
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
node-classification-on-mumin-largeRandom
Claim Classification Macro-F1: 0.3879
Tweet Classification Macro-F1: 0.3690
node-classification-on-mumin-largeHeteroGraphSAGE
Claim Classification Macro-F1: 0.5980
Tweet Classification Macro-F1: 0.6145
node-classification-on-mumin-largeMajority class
Claim Classification Macro-F1: 0.4813
Tweet Classification Macro-F1: 0.4887
node-classification-on-mumin-largeLaBSE
Claim Classification Macro-F1: 0.5790
Tweet Classification Macro-F1: 0.5280
node-classification-on-mumin-mediumHeteroGraphSAGE
Claim Classification Macro-F1: 0.5770
Tweet Classification Macro-F1: 0.5410
node-classification-on-mumin-mediumMajority class
Claim Classification Macro-F1: 0.4806
Tweet Classification Macro-F1: 0.4856
node-classification-on-mumin-mediumRandom
Claim Classification Macro-F1: 0.3896
Tweet Classification Macro-F1: 0.3772
node-classification-on-mumin-mediumLaBSE
Claim Classification Macro-F1: 0.5585
Tweet Classification Macro-F1: 0.5745
node-classification-on-mumin-smallMajority class
Claim Classification Macro-F1: 0.4756
Tweet Classification Macro-F1: 0.4877
node-classification-on-mumin-smallHeteroGraphSAGE
Claim Classification Macro-F1: 0.5795
Tweet Classification Macro-F1: 0.5605
node-classification-on-mumin-smallLaBSE
Claim Classification Macro-F1: 0.6255
Tweet Classification Macro-F1: 0.5450
node-classification-on-mumin-smallRandom
Claim Classification Macro-F1: 0.4007
Tweet Classification Macro-F1: 0.3718

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MuMiN:一个大规模多语言多模态事实核查虚假信息社交网络数据集 | 论文 | HyperAI超神经