
摘要
当前的新闻数据集主要关注新闻文本特征,很少利用图像特征,因而忽略了对新闻分类至关重要的大量信息。本文提出一个新数据集N24News,该数据集基于《纽约时报》构建,包含24个类别,每条新闻均同时包含文本与图像信息。我们采用多任务多模态方法进行实验,结果表明,相较于仅依赖文本的分类方法,多模态新闻分类在性能上显著更优,且根据文本长度的不同,分类准确率最高可提升8.11%。本研究揭示了多模态分类器与其子分类器之间的性能关联,并探讨了在新闻分类中应用多模态方法的潜在改进空间。实验结果表明,N24News具有推动多模态新闻研究的巨大潜力。
代码仓库
billywzh717/n24news
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| news-classification-on-n15news | Multimodal(ViT+BERT, Input: Image + Headline) - Dot | Accuracy: 0.8202 |
| news-classification-on-n15news | BERT (Input: Abstract) | Accuracy: 0.8471 |
| news-classification-on-n15news | BERT (Input: Caption) | Accuracy: 0.7792 |
| news-classification-on-n15news | ViT (Input: Image) | Accuracy: 0.6065 |
| news-classification-on-n15news | BERT (Input: Headline) | Accuracy: 0.7727 |
| news-classification-on-n15news | Multimodal(ViT+BERT, Input: Image + Body) | Accuracy: 0.9249 |
| news-classification-on-n15news | Multimodal(ViT+BERT, Input: Image + Abstract) | Accuracy: 0.8610 |
| news-classification-on-n15news | BERT (Input: Body) | Accuracy: 0.9203 |
| news-classification-on-n15news | Multimodal(ViT+BERT, Input: Image + Caption) - Concatenate | Accuracy: 0.7951 |