3 个月前

社交媒体中用户提交文本的意识形态倾向分类

社交媒体中用户提交文本的意识形态倾向分类

摘要

为实现长期理解语言在在线社区中如何被使用与演变的目标,本研究探讨了自然语言处理技术在文本文章意识形态倾向分类中的应用,具体分类目标为保守派或自由派。首先,我们从社交媒体平台Reddit的两个在线社区 r/Liberal 和 r/Conservative 中收集了一个平衡的文本文章语料库。基于该语料库,我们构建并应用了三种分类模型。基线分类器采用贝叶斯模型,其特征仅包含文章的网页域名信息,因此分类结果与文本内容无关。其次,我们构建了一种基于词频-逆文档频率(TF-IDF)特征的支持向量机(SVM)模型,该方法通过基于词频的特征空间来捕捉语言使用上的差异,从而区分不同意识形态的文章。最后,我们评估了基于上下文的Transformer模型(RoBERTa),并讨论了其在性能上低于基线模型和SVM模型的原因。

基准测试

基准方法指标
classification-on-reddit-ideology-databaseRoBERTa
F1-score (Weighted): 78.13
classification-on-reddit-ideology-databaseSVM
F1-score (Weighted): 86.19

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
社交媒体中用户提交文本的意识形态倾向分类 | 论文 | HyperAI超神经