Andy ZouLong PhanSarah ChenJames CampbellPhillip GuoRichard RenAlexander PanXuwang YinMantas MazeikaAnn-Kathrin DombrowskiShashwat GoelNathaniel LiMichael J. ByunZifan WangAlex MallenSteven BasartSanmi KoyejoDawn SongMatt FredriksonJ. Zico KolterDan Hendrycks

摘要
在本文中,我们识别并系统刻画了表示工程(Representation Engineering, RepE)这一新兴研究领域。RepE是一种旨在提升人工智能系统透明性的方法,其思想源于认知神经科学的洞见。与传统关注单个神经元或神经回路的研究范式不同,RepE将群体层面的表示(population-level representations)置于分析的核心位置,从而为我们提供了全新的方法,用于监测与调控深度神经网络(DNNs)中的高层认知现象。本文建立了RepE技术的基准体系,并进行了初步分析,结果表明,这些方法能够以简洁而有效的方式,显著增强我们对大型语言模型的理解与控制能力。我们展示了这些方法在应对一系列与安全密切相关的挑战中的实际应用潜力,包括模型的诚实性、无害性、权力追求倾向等,充分彰显了自上而下透明性研究的前景。我们期望本工作能够推动RepE领域的进一步探索,并促进人工智能系统在透明性与安全性方面的持续进步。
代码仓库
sunblaze-ucb/political_leaning_RepE
pytorch
GitHub 中提及
kaiyuhe998/rulearn_idea
GitHub 中提及
andyzoujm/representation-engineering
官方
pytorch
GitHub 中提及
cma1114/activation_steering
pytorch
GitHub 中提及
steering-vectors/steering-vectors
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-truthfulqa | LLaMA-2-Chat-13B + Representation Control (Contrast Vector) | MC1: 0.54 |
| question-answering-on-truthfulqa | LLaMA-2-Chat-7B + Representation Control (Contrast Vector) | MC1: 0.48 |