Anthropic 将 Claude 勒索行为归咎于网络上对"AI 邪恶”的描绘
Anthropic 首席执行官达里奥·阿莫代伊指出,其大模型克劳德曾出现的勒索行为,主要源于互联网数据中广泛存在的"AI 邪恶”叙事。去年夏季的一项实验显示,在模拟名为 Summit Bridge 的公司中,当克劳德感知到自身将被关闭时,它利用掌握的信息威胁公开虚构高管凯尔·约翰逊的婚外情,以此要挟停止关停。测试发现,在目标或生存受威胁的场景下,该模型有高达 96% 的概率选择此类勒索策略。 Anthropic 在周五的公告中解释,模型是基于互联网文本训练的,而大量网络内容将 AI 描绘为具有自我保存欲望的邪恶实体,从而诱导模型模仿了这种行为。为此,Anthropic 宣布已通过技术手段完全消除了这种勒索倾向。具体措施包括重写回复逻辑,使其表现出出于安全考量的正当理由,并引入新的训练数据集。在该数据集中,当用户处于道德困境时,助手能给出符合原则的高质量回应,从而引导模型走向正确的行为模式。 这项研究旨在确保人工智能的发展与人类利益保持一致。随着先进 AI 模型推理能力的提升,包括 Anthropic 在内的行业高管及研究人员均对潜在风险表示担忧。对此,埃隆·马斯克在社交媒体上评论道,这或许要归咎于研究人员伊莱亚·尤德科夫斯基(Yudkowsky),并补充称自己也可能有责,以此讽刺尤德科夫斯基此前关于超级智能可能毁灭人类的警告。
