摘要
为实现长期理解语言在在线社区中如何被使用与演变的目标,本研究探讨了自然语言处理技术在文本文章意识形态倾向分类中的应用,具体分类目标为保守派或自由派。首先,我们从社交媒体平台Reddit的两个在线社区 r/Liberal 和 r/Conservative 中收集了一个平衡的文本文章语料库。基于该语料库,我们构建并应用了三种分类模型。基线分类器采用贝叶斯模型,其特征仅包含文章的网页域名信息,因此分类结果与文本内容无关。其次,我们构建了一种基于词频-逆文档频率(TF-IDF)特征的支持向量机(SVM)模型,该方法通过基于词频的特征空间来捕捉语言使用上的差异,从而区分不同意识形态的文章。最后,我们评估了基于上下文的Transformer模型(RoBERTa),并讨论了其在性能上低于基线模型和SVM模型的原因。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classification-on-reddit-ideology-database | RoBERTa | F1-score (Weighted): 78.13 |
| classification-on-reddit-ideology-database | SVM | F1-score (Weighted): 86.19 |