6 个月前

摘要

社交媒体数据包含高质量与低质量内容的混合。其中一种被广泛研究的低质量内容形式是垃圾信息（spam）。现有大多数研究假设垃圾信息具有上下文无关性。然而，我们在多个Twitter数据集上发现，存在具有特定上下文特征的垃圾信息，且这类垃圾信息具有可识别性。随后，我们对比了多种传统机器学习模型与一种基于预训练BERT语言模型的神经网络模型，利用仅基于内容的特征来识别传统垃圾信息和上下文相关垃圾信息。实验结果表明，神经网络模型在F1评分上达到0.91，显著优于传统模型。由于垃圾信息训练数据集通常存在严重的类别不平衡问题，我们进一步研究了这种不平衡对模型性能的影响。研究发现，在极端不平衡情况下，简单的词袋模型（Bag-of-Words）表现最佳；然而，若采用其他领域预训练语言模型进行微调的神经网络模型，则能显著提升F1分数，尽管其性能仍未达到领域特定神经模型的水平。这一结果表明，模型选择策略应根据数据集的不平衡程度、低资源场景下的数据量大小，以及上下文相关垃圾信息与传统垃圾信息的相对分布情况而动态调整。最后，我们已将所使用的数据集公开，供学术界研究使用。

源 PDF 查看代码