3 个月前

表征工程:一种面向人工智能透明性的自上而下方法

表征工程:一种面向人工智能透明性的自上而下方法

摘要

在本文中,我们识别并系统刻画了表示工程(Representation Engineering, RepE)这一新兴研究领域。RepE是一种旨在提升人工智能系统透明性的方法,其思想源于认知神经科学的洞见。与传统关注单个神经元或神经回路的研究范式不同,RepE将群体层面的表示(population-level representations)置于分析的核心位置,从而为我们提供了全新的方法,用于监测与调控深度神经网络(DNNs)中的高层认知现象。本文建立了RepE技术的基准体系,并进行了初步分析,结果表明,这些方法能够以简洁而有效的方式,显著增强我们对大型语言模型的理解与控制能力。我们展示了这些方法在应对一系列与安全密切相关的挑战中的实际应用潜力,包括模型的诚实性、无害性、权力追求倾向等,充分彰显了自上而下透明性研究的前景。我们期望本工作能够推动RepE领域的进一步探索,并促进人工智能系统在透明性与安全性方面的持续进步。

代码仓库

kaiyuhe998/rulearn_idea
GitHub 中提及
andyzoujm/representation-engineering
官方
pytorch
GitHub 中提及
cma1114/activation_steering
pytorch
GitHub 中提及
steering-vectors/steering-vectors
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-truthfulqaLLaMA-2-Chat-13B + Representation Control (Contrast Vector)
MC1: 0.54
question-answering-on-truthfulqaLLaMA-2-Chat-7B + Representation Control (Contrast Vector)
MC1: 0.48

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
表征工程:一种面向人工智能透明性的自上而下方法 | 论文 | HyperAI超神经