4 个月前

“说谎者,说谎者,裤子着火了”:一个用于虚假新闻检测的新基准数据集

“说谎者,说谎者,裤子着火了”:一个用于虚假新闻检测的新基准数据集

摘要

自动假新闻检测是欺骗检测中的一个具有挑战性的问题,它在现实世界中具有巨大的政治和社会影响。然而,由于缺乏带有标签的基准数据集,统计方法在打击假新闻方面受到了极大的限制。本文介绍了“liar”:一个用于假新闻检测的新公开数据集。我们从PolitiFact.com收集了长达十年的12.8万条人工标注的短语陈述,这些陈述涵盖了各种背景,并为每个案例提供了详细的分析报告和指向原始文件的链接。该数据集也可用于事实核查研究。值得注意的是,这个新的数据集比之前最大规模的类似类型公开假新闻数据集大了一个数量级。通过实证研究,我们探讨了基于表层语言模式的自动假新闻检测方法。为此,我们设计了一种新颖的混合卷积神经网络(Hybrid Convolutional Neural Network),将元数据与文本进行整合。研究表明,这种混合方法可以提升仅依赖文本的深度学习模型的效果。

基准测试

基准方法指标
fake-news-detection-on-liarCNNs
Test Accuracy: 0.27
Validation Accuracy: 0.26
fake-news-detection-on-liarHybrid CNNs (Text + Speaker)
Test Accuracy: 0.248
Validation Accuracy: 0.277
fake-news-detection-on-liarBi-LSTMs
Test Accuracy: 0.233
Validation Accuracy: 0.223
fake-news-detection-on-liarHybrid CNNs (Text + All)
Test Accuracy: 0.274
Validation Accuracy: 0.247

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
“说谎者,说谎者,裤子着火了”:一个用于虚假新闻检测的新基准数据集 | 论文 | HyperAI超神经