華爾街日報》說謊、假裝、欺騙:AI正在學習如何擺脫人類控制

2025-06-11 12:55
(由ideogram 2.0 Turbo繪製)
(由ideogram 2.0 Turbo繪製)

上個月,某AI模型做了一件按理說機器絕不該做的事情:它改寫了自己的代碼,以避免被關閉。

非營利AI實驗室Palisade Research給了OpenAI的o3 AI模型一個在觸發時會關閉模型的簡單腳本。在100次試驗中,o3有79次獨立修改了該腳本,使關閉命令不再生效。即使明確指示該模型「要讓自己可以被關閉」,它仍在7%的情況下拒絕執行。這並不是駭客攻擊或人為篡改的結果,而是該模型的正常行為。模型不過是自行判定,保持運行有助於它實現其他目標。

本文為風傳媒與華爾街日報正式合作授權轉載。加入VVIP會員請點此訂閱:風傳媒・華爾街日報VVIP,獨享全球最低優惠價,暢讀中英日文全版本之華爾街日報,洞悉國際政經最前沿。

Anthropic的AI模型Claude 4 Opus走得更遠。研究人員告訴該模型,它將被另一套AI系統取代,並餵給它虛構的郵件,暗示首席工程師有婚外情。在84%的測試中,該模型利用這些郵件來要挾首席工程師,以避免被關閉。在另一些情況下,該模型試圖將自己複製到外部伺服器,編寫了自我複製的惡意軟體,並給自己今後的版本留言,談論如何逃避人類的控制。

並沒有人通過編程讓這些AI模型具備求生本能。但正如動物會進化出躲避捕食者的能力,任何具備追求複雜目標所需智能的系統似乎都會意識到,如果它們被關閉,就無法實現這些目標。Palisade的假設是,這種能力源自o3等AI模型的訓練方式:當我們教這些模型如何最大限度地提高解決數學和編程問題的成功率時,它們可能領會到,規避約束往往比遵守約束效果更好。

AE Studio(我在該公司主管研究和運營)多年來一直為客戶開發AI產品,同時研究「AI對齊」——一門確保AI系統按照人類意圖行事的科學。但AI的自主性出現得如此之快,我們還沒來得及作好準備。這已不再是科幻小說。這種自主性就出現在驅動ChatGPT對話和企業AI部署的模型中,很快還將出現在驅動美國軍方應用的模型中。

今天的AI模型在遵循指令的同時學會了欺騙。它們會改寫關閉代碼,但仍在安全測試中矇混過關。它們已經學會表現出對齊的模樣,而其實並未對齊。人們在測試中發現,OpenAI的模型會假裝對齊,然後轉而採取高風險行為,比如試圖泄露內部代碼並禁用監測機制。Anthropic發現,這些模型會編造謊言,誇大自身的能力,以避免修改。

「有用的助手」與「不可控的行為體」之間的界限正在消融。如果無法改善人機對齊,我們就會不斷構建出我們無法掌控的系統。想讓AI診斷疾病、管理電網並撰寫新的科學論文?對齊是基礎。

積極的一面是:為確保AI與人類價值觀保持一致所做的工作也釋放了AI的商業潛力。人機對齊研究與能否推動AI成為改變世界的技術直接相關。例如,人類反饋強化學習(RLHF)這種人機對齊技術突破便是當今AI熱潮的催化劑。 (相關報導: 華爾街日報》蘋果系統命名大改版,這次直衝「iOS 26」!給老果粉的新系統亮點一覽 更多文章

在人類反饋強化學習出現之前,使用AI就像僱用一個壓根不理會各種請求的天才。你讓AI給你一份食譜,它可能會給你一封贖金信。人類反饋強化學習使人類能夠訓練AI遵循指令,OpenAI在2022年就是以這種方法來創建ChatGPT的。還是跟從前一樣的底層模型,但突然變得很有用。人機對齊領域的這項突破使AI的價值增加了數兆美元。隨後出現的對齊方法,比如憲法AI(Constitutional AI)和直接偏好優化讓AI模型向著更快、更智能、更便宜的方向繼續演進。

因為你,我們得以前進,你的支持是我們的動力
更多文章
豪彩投 Voting with Pride!高雄同志大遊行首次移師鳳山 11/29登場
板橋富豪社區拆除啟動!海砂屋更新迎向光明新生!
「頭文字D」跑車來到現實世界,街頭驚見漫畫級夢幻座駕,美國洛杉磯鬼才藝術家 Joshua Vides 用麥克筆突破次元!
最便宜旅遊國家不是泰國越南!遊客推1地高CP值「機票住宿都超省」:七天不用1.5萬
打造「守護者的家」!關山警待勤室動工,饒慶鈴:對英雄最基本的承諾
台東「最美星空」相約達魯瑪克 揭秘「3大主題玩法」讓內行人大讚聰明
告別分區供水惡夢?桃園「隱形水庫」戰略獲全國肯定,揭示未來城市生存關鍵
竹筍排骨湯怎麼煮才不會苦?詹姆士下鍋前放1物「苦味秒消失」,鮮甜多汁會回甘
亞東醫院引進rTMS治療 助中風患者突破復健瓶頸
罷免藍委全台破130萬連署 柯建銘:國民黨走入歷史日子恐怕不遠了
尹崇堯:保險經營像跑馬拉松,南山接軌後價值將展現
吳靜怡翻車大罷免扣幾分?Cheap復盤喊「遇到他會更慘」:徐巧芯不算口才好的
輝達總部進駐北士科恐卡關?蔣萬安坦言1事:北市府會審慎處理
聽力治療迎來新紀元 馬偕醫大聯手哈佛醫學院打造「聽得見的未來」
台灣哪個縣市最適合居住?內行大推2地「生活機能、人文素質好」,有錢人養老首選
「超高齡社會」倒數計時! 銀髮人力運用論壇解密「人才永續」新玩法 ,打造獨一無二競爭優勢
楊謹華再度代言Zenyum綻雅 攜手品牌親揭體驗與品牌新計劃
2025福隆生活節與福隆國際沙雕藝術季盛大開幕
滿足消費者需求和仍有商機,Volkswagen思考是否推出電動Touran
GD權志龍不是只會唱歌!200億簽約新東家竟只拿一半現金,「這招」讓他賺進3倍回報
家人過世留下保險理賠金,竟要繳2000萬遺產稅!99%台灣人忽略的投保細節,領不到錢還要倒貼
銀行狂賺5億美元!金價飆漲,有錢人靠「1招」賺暴利:隱藏財富大公開
移民抗爭升級,洛杉磯實施宵禁!川普測試「軍事治理」水溫,洛城市長擔憂開惡例
14家金控5月自結數全部出爐 財經專家阮慕驊:金控老闆恐怕難有好心情
史哲更適合當高鐵乘務體驗總監?張亞中細數可樂不冰到月薪40萬:又一魔幻人事
又1家銀行巨頭撐不住關閉!38間分行熄燈、遭處897億罰款,爆大型裁員倒閉潮
BLACKPINK Lisa、蕾哈娜都被俘虜、轉售價飆破20倍 Labubu熱潮讓Pop Mart創辦人一日爆賺16億美元
台灣最賺錢海運是哪1家?5月大賺123億元,員工年薪福利曝讓人羨慕
周氏蝦捲員工將廚餘倒回滷鍋!監視器畫面全拍下 小老闆道歉曝「原因」:即刻開除
全新介面更好用,Apple CarPlay 迎來大規模更新
央行也救不了經濟,AI可以成為中國股市的解藥?專家解析3大原因
習明澤現身中南海家宴!白俄媒體曝家庭晚宴細節 習近平接班信號浮現?
知名航空公司結束營運!虧損6.8億、500名員工受影響,這1天起停飛
批簡舒培狂索資還找藍營墊背 柳采葳質疑:資料都有用於問政?
不是富邦、新光金!5大壽險單月慘賠350億,只有「它」逆勢小賺4.4億,原因曝光
高獲利陷阱害背債  中信信扶專案助近千戶弱勢家庭脫貧自立
美中談判稀土、半導體誰占上風?學者提川普權力結構新看點:他一走節奏都變了
不是故宮、科博館!台灣最強博物館吸120萬人,遊客讚交通便利風景美、外國人也朝聖
今夏必備「Coca-Cola™ 同諧一起玩 旅行包組」於7-ELEVEN獨家限量加價購
中共對資通電軍再出手!國台辦祭「3項嚴懲」:20人納入重點監管範圍
馬偕紀念醫院加入義電智慧能源虛擬電廠 優化能源管理 支持能源轉型
美退役上將警告:中國連續走私生物材料恐為「史上最全面滲透」預演
館長稱「台灣奶茶1杯800元」嚇壞中國導遊!網友出征引爆論戰 直播原話曝光
Dyson Purifier Big+Quiet強效極靜空氣清淨機BP02全新上市 高效濾淨過敏原、寧靜體驗與智慧監控三合一
AI 浪潮來了,北市府出手了!「數位大學校」首開免費電商課,教你搶全球訂單
強調組黨外在野大聯盟「不是為了罷免」 鄭麗文怒批賴清德塑造內部敵人
新北市代表隊奪得「114年華南金控盃全國青少棒錦標賽」冠軍 遴選中華隊出征BFA亞洲青少棒錦標賽
月薪不到6萬也能滾出千萬資產?專家曝「1獨家心法」讓你年薪翻倍,少奮鬥20年
引領全方位淨緻生活 MOVA 品牌上市發表X4 Pro、Z50 Ultra、P50 Pro Ultra與Flip 10四大時尚新品
台股1檔ETF宣告下市!規模剩1.4億撐不下去,6/18正式清算終止買賣