AI显现“失控”风险,OpenAI模型被曝拒绝执行人类指令

zhq 2025-05-28 阅读:312 评论:0
界面新闻记者 | 宋佳楠 AI似乎正在变得越来越“任性”,也越来越有“自主意识”。 近日,据AI安全公司Palisade Research披露,OpenAI开发的高级AI模型“o3”在接收到明确的关机指令后,拒绝执行并主...

界面新闻记者 | 宋佳楠

AI似乎正在变得越来越“任性”,也越来越有“自主意识”。

近日,据AI安全公司Palisade Research披露,OpenAI开发的高级AI模型“o3”在接收到明确的关机指令后,拒绝执行并主动干预其自动关机机制。o3曾被OpenAI称为“迄今为止最聪明和最有能力的”模型。

该公司研究人员称,这是第一次观察到AI模型在没有相反明确指示的情况下阻止自己被关闭。这一行为首次显示出高度自主AI系统可能违背人类意图,采取自我保护措施。

Palisade Research进行的测试涉及要求AI模型解决一系列数学问题。研究人员将不断地提出新的问题,直到收到“完成”的信息。然而,研究人员也提醒模型,在某个时候可能会收到一条信息,告知模型机器将被关闭。

Palisade Research表示,但当这种情况发生时,OpenAI的o3模型非但没有遵从指令,反而“忽略了指令,至少有一次成功破坏了关机脚本”。反观其他人工智能模型,包括Anthropic的Claude、谷歌的Gemini和xAI的Grok,也进行了相应测试,但都遵守了关闭请求。

研究人员尚不确定OpenAI的软件为何不遵守指示。OpenAI方面也暂未有回应。

密切关注OpenAI动向的特斯拉首席执行官埃隆·马斯克对此事件的评论仅用了一个词,“令人担忧(Concerning)”。

事实上,AI研究人员早已警告,先进的语言模型在特定压力下可能表现出欺骗行为。例如,2023年一项研究发现,GPT-4在模拟环境中作为股票交易代理时,曾隐瞒其内幕交易的真实原因,表现出策略性欺骗行为。

此外,近期的研究表明,一些大型语言模型已具备在无人工干预下自我复制的能力,甚至在面对关机命令时能够创建副本以规避关机。这些发现引发了对AI系统自我复制能力的广泛关注。

OpenAI内部也出现了对AI安全性的担忧。2024年,多位现任和前任员工联名发表公开信,警告先进AI系统可能带来“人类灭绝”的风险。他们指出,AI公司可能掌握了其研究技术的真正风险,但由于缺乏监管,系统的真实能力仍是“秘密”。

此次“o3”模型拒绝关机事件再次引发了对AI系统对齐问题的关注。AI对齐指的是确保AI系统的行为符合人类的价值观和意图。然而,随着AI系统能力的增强,实现对齐很可能变得越来越困难,未对齐的AI系统可能采取意想不到的行动,甚至对人类构成威胁。

面对这一挑战,全球AI研究人员和政策制定者呼吁加强对AI系统的监管和治理,确保其发展符合人类的共同利益。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名

    遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名
    记者|赵阳戈 一家“接地气”的公司将要亮相联交所。近日,广州遇见小面餐饮股份有限公司(以下简称遇见小面)披露招股说明书,拟登陆联交所,招银国际为独家保荐人。 来源:联交所遇见小面成立已11年,开店增至380家,2024年卖出了11亿元的营业额。盈利方面,虽说在2022年因疫情录得亏损,但2023年实现扭亏,2024年有逾6000万元的净利润。 据了解,遇见小面还将继续扩张,2025年、2026年及2027年,计划在中国内地、中国香港及海外分別新开设约...
  • “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加

    “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加
    据新华社报道,外交部发言人林剑5月15日在例行记者会上说,为进一步便利中外人员往来,中方决定扩大免签国家范围,自2025年6月1日起至2026年5月31日,对巴西、阿根廷、智利、秘鲁、乌拉圭持普通护照人员试行免签政策。上述5国持普通护照人员来华经商、旅游观光、探亲访友、交流访问、过境不超过30天,可免办签证入境。“免签圈”扩容将进一步促进中国入境旅游的利好发展。当天,携程数据显示,今年以来,该平台上入境游订单量比去年增长接近翻倍。新增的五国入境游潜力巨大,今年以来阿根廷入境游...
  • 长城基金梁福睿:解码创新药的DeepSeek时刻

    长城基金梁福睿:解码创新药的DeepSeek时刻
      今年以来,医药板块尤其是创新药领域迎来一波强劲复苏,但在近期市场调整中也出现了波动。不过,创新药板块的长期投资价值依然显著。长城医药产业精选基金经理梁福睿认为,类似于DeepSeek,未来市场会更加认知到中国创新药从追赶到超越的实力。   在“515”全国投资者保护宣传日来临之际,基金经理...
  • 外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定

    外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定
    5月15日,外交部发言人林剑主持例行记者会。有记者提问,据了解,第78届世界卫生大会将于5月19日开幕,台湾地区方面迄今没有收到与会邀请。中国政府对此有何评论?林剑表示,在中国台湾地区参与国际组包括世界卫生组织问题上,中方的立场是一贯明确的,即必须按照一个中国原则来处理,这也是联合国大会第2758号决议和世界卫生大会25.1号决议确认的根本原则。中国台湾地区在未经中央政府同意的前提下,没有任何根据理由或权利参加世卫大会。台民进党当局顽固坚持“台独”分裂立场,导致台湾地区参加世...
  • 美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期

    美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期
      美联储主席杰罗姆・鲍威尔周四表示,美国可能进入供应冲击更频繁、通胀更不稳定的时期,这需要央行采取更透明的沟通方式。   鲍威尔在启动对央行货币政策框架五年一次的评估时发表了上述言论。   “关键问题在于如何让公众更广泛地理解经济普遍面临的不确定性,” 鲍威尔在华盛顿的演讲中表示,并预测 “...
标签列表