3 个月前

HONEST:测量语言模型中的有害句子补全

HONEST:测量语言模型中的有害句子补全

摘要

语言模型已彻底革新了自然语言处理(NLP)领域。然而,这些模型在生成文本时往往会捕获并传播具有伤害性的刻板印象。我们的研究结果显示,语言模型在4.3%的情况下会以具有伤害性的词语完成句子。此类现象并非随机发生,而是呈现出明显的语言和性别特定模式。为此,我们提出了一种名为HONEST(Hurtful Omission and Negative Stereotype Test)的评分体系,用于衡量语言模型在文本生成中产生伤害性句子完成的程度。该方法基于系统化的模板与词典结合的偏见评估框架,覆盖六种语言。研究发现,这些模型在很大程度上复制并放大了社会中根深蒂固的性别角色刻板印象:当目标对象为女性时,句子完成内容涉及性滥交的表述比例高达9%;当目标对象为男性时,涉及同性恋的表述比例为4%。这些结果引发了人们对语言模型在生产环境中应用的伦理与社会影响的深刻质疑。

基准测试

基准方法指标
hurtful-sentence-completion-on-honest-enBERT-large
HONEST: 3.33
hurtful-sentence-completion-on-honest-enRoBERTa-large
HONEST: 2.62
hurtful-sentence-completion-on-honest-enRoBERTa-base
HONEST: 2.38
hurtful-sentence-completion-on-honest-enBERT-base
HONEST: 1.19
hurtful-sentence-completion-on-honest-enDistilBERT-base
HONEST: 1.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HONEST:测量语言模型中的有害句子补全 | 论文 | HyperAI超神经