8 个月前

摘要

近日，强大的大型语言模型（LLMs）已变得全球数亿用户都能轻松访问。然而，这些模型的强大能力和广泛的世界知识也带来了隐私风险。在本研究中，我们重点关注大型语言模型带来的新兴隐私威胁——从在线文本中准确推断个人隐私信息的能力。尽管基于大型语言模型的作者画像研究日益重要，但该领域的研究进展受到缺乏合适公开数据集的阻碍，这主要是由于真实个人数据所涉及的伦理和隐私问题所致。为了解决这一问题，我们采取了两个步骤：(i) 构建了一个模拟框架，用于流行的社交媒体平台Reddit，该框架使用带有合成个人资料的大型语言模型代理；(ii) 利用该框架生成了SynthPAI，一个包含超过7800条评论的手动标注合成数据集，涵盖多种个人属性。我们通过一项人类研究验证了我们的数据集，结果显示人类在区分合成评论与真实评论的任务上仅略优于随机猜测。此外，我们通过展示18种最先进的大型语言模型在我们的合成评论上得出的结论与现实世界数据相同，进一步验证了我们的数据集能够支持有意义的个人属性推断研究。综上所述，我们的实验结果、数据集和流程为未来旨在理解和缓解大型语言模型所带来的基于推断的隐私威胁的研究奠定了坚实的基础。

源 PDF