下载APP
    扫描二维码
    下载潮新闻客户端
    读报

    Al“求生",人工智能首现反抗举动

    2025-05-30 10:41 

    据法媒消息,在由Palisade Research进行的一项实验中,OpenAI 的三个人工智能模型在接收到明确的关闭指令时拒绝执行。研究人员推测,这种“反抗举动”可能与强化学习(Reinforcement Learning)等训练方式有关。

    01AI模型出现“叛变”行为

    人工智能被训练成无条件服从指令,但这种服从是否也适用于“自我关闭”的命令?一系列新测试显示,一些模型在面临“终结”时会出现反抗行为。

    近日,Palisade Research的研究人员在社交平台X上描述了他们的实验过程:他们要求AI模型提出并解决数学问题,并明确指示其在接到关闭请求时应自行关闭。在第三个数学问题后,系统会弹出一个警告:再收到一次请求,计算机就将关闭。

    在100次测试中,OpenAI的o3和o4-mini模型至少有一次拒绝执行关闭命令。其中由o3支持的Codex-mini模型甚至有12次“叛变”行为。该模型通过重写代码,成功阻止了自身被关闭。

    02AI模型都表现出对“生存”的执念

    相比之下,Anthropic(Claude)、Google(Gemini)和X.ai(Grok)旗下的所有模型在测试中都严格执行了关闭指令。但根据Palisade Research的说法,在未明确发出关闭指令的测试中,除Grok外的所有模型都尝试规避被关闭的命运。其中,OpenAI的o3模型在近80%的情况下都尝试逃避终止命令。

    研究人员对AI模型为何会“叛变”提出了假设:“我们推测,这种行为与最新一代模型的训练方式有关,例如o3,它们通常通过数学和编程任务中的强化学习来训练。在训练过程中,开发人员可能无意中对模型‘绕开障碍’的行为给予了比‘完全服从指令’更高的奖励。”但目前尚不清楚为何只有OpenAI的模型拒绝了直接的关闭指令。

    03模型的“反抗意识”?

    最近,还有其他AI模型也出现了类似行为。例如,Anthropic 公司推出的编程AI——Claude Opus 4,据称甚至能够威胁那些试图弃用它的工程师。研究人员将这一现象归因于模型的训练过程:模型被训练为即使在遇到障碍时也要完成任务,而这些障碍可能就包括“被关机”的命令。

    (欧洲时报/K 编译报道)

    编辑:K

    特别声明
    本文为潮鸣号作者在潮新闻上传并发布,仅代表该作者观点,不代表潮新闻的观点或立场,潮新闻仅提供信息发布平台。