6 个月前

摘要

谣言是一种通过语言力量对模糊但具有吸引力的情境进行集体解读的尝试。在社交网络中，虚假谣言与真实谣言在词汇、句法和语义层面可能表现出显著不同的上下文特征。为此，本研究提出了一种基于BERT-SAWS的半监督学习模型，用于早期识别波斯语谣言，从三个视角综合分析内容与上下文特征：上下文词嵌入（CWE）、言语行为（Speech Act）以及写作风格（Writing Style, WS）。该模型通过加载预训练的双向编码器表示模型（Bidirectional Encoder Representations from Transformers, BERT）作为无监督语言表示基础，利用少量波斯语谣言数据集对其进行微调，并结合监督学习模型，从而生成更丰富的谣言文本表征。这种文本表征使模型能够更深入地理解谣言的语言特征，从而在两个方面优于基线模型：（i）通过聚焦源谣言的内容特征与上下文特征，实现早期谣言验证；（ii）通过引入预训练BERT模型，结合基于言语行为与写作风格的特征，有效缓解深度神经网络中因数据集规模不足带来的性能瓶颈。在Twitter和Telegram数据集上的实证结果表明，BERT-SAWS模型可使分类器性能提升2%至18%。结果表明，言语行为特征与写作风格特征，连同语义上下文向量，均在谣言验证任务中具有显著的辅助作用。

源 PDF