
摘要
2018年6月24日,土耳其举行了一场具有重大影响的选举,这是在新的总统制下举行的首次总统与议会选举。选举期间,土耳其民众在Twitter平台上广泛分享其政治观点。选民群体中的一个显著极化现象表现为对现任总统雷杰普·塔伊普·埃尔多安(Recep Tayyip Erdoğan)是否应连任的支持或反对态度。本文提出了一种在极化语境下针对特定目标的无监督立场检测方法,专门应用于土耳其政治语境,实现了90%的立场识别精确率,同时保持了超过80%的召回率。该方法首先利用谷歌基于卷积神经网络(CNN)的多语言通用句子编码器(Multilingual Universal Sentence Encoder)将用户表示为嵌入空间中的向量,随后通过一种反映用户间相似性的投影方式,将这些表示降维至低维空间,并进行聚类。实验结果表明,该方法能够有效对不同群体用户进行正确聚类,涵盖政治人物、不同社会群体及政党等多个目标。本研究基于一个大规模数据集,包含1.08亿条与土耳其选举相关的推文,以及16.8万名土耳其用户的历史推文,这些用户共发布了2.13亿条推文。基于所识别出的用户立场,我们进一步分析了话题之间的相关性,并量化了话题极化程度。
代码仓库
AmmarRashed/UnsupervisedStanceDetection
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| stance-detection-on-trump-midterm-elections | MUSE + UMAP (Unsupervised) | Avg F1: 0.86 Macro Precision: 0.89 Macro Recall: 0.84 |
| stance-detection-on-turkish-elections-2018 | MUSE + UMAP (Unsupervised) | Avg F1: 0.84 Macro Precision: 0.90 Macro Recall: 0.79 |