6 个月前

摘要

虚假信息在社交媒体和新闻报道中正变得日益普遍。其传播范围之广已使得我们亟需借助机器学习算法实现自动化检测。然而，训练此类机器学习模型依赖于规模大、多样性高且质量优良的数据集。目前，自动虚假信息检测领域的数据集大多为单一语言，模态种类有限，且在规模与质量上均难以满足需求。针对这一问题，我们开发了一套数据采集与关联系统（MuMiN-trawl），构建了一个公开的虚假信息图谱数据集（MuMiN）。该数据集包含丰富的社交媒体数据（包括推文、回复、用户信息、图片、新闻文章、话题标签等），覆盖2100万条推文，涉及2.6万个Twitter话题线程，每条话题线均通过语义关联方式与跨数十个主题、事件和领域、涵盖41种语言的1.3万条经过事实核查的声明相连接，时间跨度超过十余年。该数据集以异构图的形式通过一个Python工具包（mumin）提供。我们为两个与社交媒体中声明真实性相关的节点分类任务提供了基线结果，实验表明这些任务具有较高难度，两项任务的最高宏平均F1分数分别为62.55%和61.45%。MuMiN生态系统已开放发布，访问地址为：https://mumin-dataset.github.io/，包含数据集、文档、教程以及排行榜等资源。

源 PDF