前言
就在全球AI公司還在為「數據荒」苦惱的時候,一群研究者卻悄悄投下一顆震撼彈!他們創造了一個名為「絕對零度推理器」(Absolute Zero Reasoner, AZR)的系統,這個系統竟然可在完全不需人類提供任何訓練數據的情況下,自己教會自己複雜的推理能力!尤其,當AI界最大的痛點正是「數據荒漠」!OpenAI、Google、Meta的巨頭們每年花費數億美元收集與標註數據,聘雇成千上萬的標註員日夜不停地「餵食」AI之時!
AZR系統為一種自學成才,並在數學和編程推理測試中打敗其他同類的頂尖模型!這像是一個從零開始的小學生竟然能在考試成績超越那些「補習」無數小時的優等生!
重點在AZR系統的學習過程完全是自發與開放式的。「他」不像傳統AI那樣被動地接受人類「餵食」的問答數據集,而是主動地思考「我應該學習什麼才能變得更聰明?」然後自己設計學習任務,自己解決問題,自己評估進步!令人訝異的是,AZR甚至還能展現強大的「跨域遷移」能力—僅透過自己所生成的編程任務便能進行學習,使其掌握數學推理能力的提升幅度高達15.2%(Zhao等,2025)!
相對地,這種情況也讓專家們憂心的是,當AI開始能夠「莊敬自強」,我們能否確保「他們」不會學到我們不希望「他們」學到的東西?問題的答案可能會決定人類與AI在未來是否依然能夠保持「處變不驚」。
雙面AI:一個大腦,雙重人格
「絕對零度推理器」最令人匪夷所思之處在於「他」擁有「雙重人格」:
1.「出題者」角色:瘋狂地創造各種刁鑽的編程挑戰題目。
2.「解題者」角色,即拼命地嘗試解決這些自己出的難題。
這就像一個人格分裂的天才,左手出題難倒右手,右手解題提升左手!離奇的是,這個過程中沒有任何人類的介入,AI就在那裡自言自語、自問自答與自我提升!但這種「自我對話」的機制遠比想像中複雜,因為研究者發現當AI扮演「出題者」,它會展現出一種近乎「惡魔」般的創造力,故意設計一些看來簡單卻極其刁鑽的題目。而當它切換到「解題者」模式時,又會變得異常專注執著,反覆嘗試不同的解決方案直到成功為止。
有趣的是,這個AI還會「自我調節」難度!當它發現某個題目太簡單(正確率100%)或太困難(正確率0%)時,會自動降低這類題目的「獎勵分數」,專注於那些「剛好有挑戰性」的任務。這種自適應的學習策略,連研究者都感到驚訝(Lang等,2024)!研究團隊設計三種不同類型的推理任務來訓練AZR系統:
1. 「歸納」模式:給出程序輸入輸出,推斷程序邏輯
每一種模式皆對應人類思維的不同層面,而這AI竟然能夠同時掌握並靈活運用這三種思維模式!在訓練過程中,研究者發現不同的推理模式會觸發AI,產生完全不同的認知行為和思考模式!通常,當AI在解決「溯因」問題時,它會展現「試錯」行為,反覆嘗試不同輸入,直到找到正確答案(Cordeschi,1991);而在處理「演繹」問題時,它會表現出系統性的「步驟追蹤」行為,而逐步推演程序執行的過程。最神奇的是「歸納」模式,AI會在代碼中自然生成注釋,就像人類程序員在思考時會寫下註解一樣!
研究者們還發現其「思考長度」會根據任務類型而自動調整,在解決「溯因」問題時,由於需要大量「試錯」,因此,AI的回答會變得越來越長;而在演繹問題中,回答長度相對穩定。這種「自發湧現」的多元化思維模式連研究者都感到震驚!雖是看似單純推理的過程,然而,令人不安的是,這種「雙重人格」的設計顯然觸發了某種「競爭機制」。當「出題者」獲得高獎勵時,「解題者」往往獲得低獎勵,反之亦然。這就像AI內部在進行著一場永不停息的智力博弈,不斷推動整個系統往更高的智慧水準進化!
史無前例:零數據完爆專業軍團
即便如此,真正令人震撼的卻是在規模效應,當研究者測試3B、7B與14B等不同參數的模型,發現越大的模型從AZR訓練中獲得的提升效果越明顯!14B模型的整體性能夠提升高達13.2%、3B模型只提升5.7%。這種情況亦暗示著「絕對零度」可能蘊含著某種「智慧放大」效果「越聰明的AI,其越能從自我學習中獲得愈大的效益」!
在數學推理領域中,AZR的戰果更加輝煌,AZR在2024的AIME測試中達到20%,是基礎模型的3倍!隨後在2025的測試中,它又從3.3% 飆升到10%,提升將近3倍的素質!對AI推理有概念的人光看這些數字背後所隱藏的意義,就能發現AZR不是簡單「背題」,而是真正理解數學推理的本質。研究者也發現即使在完全沒有見過的新題型上,AZR也能表現出色,這說明它獲得的是「真正推理」而不是單純只依賴模式記憶!
此外,AZR另外一個令人震撼的發現是「跨域遷移能力」的對比,這是一種足以讓AI界重新思考訓練策略。因為傳統專業代碼模型在數學方面提升的平均僅0.65%,但經AZR訓練後的模型在數學方面的提升竟可高達10.9-15.2%!研究者還進行一個極限測試,藉此判斷AZR如何去解決複雜的邏輯遊戲,結果發現它不僅能夠正確求解,還在解題過程中展現出類似人類的「策略性思維」,即AI會先分析約束條件,再系統性地嘗試可能的解法。
這些戰績讓我們不得不面對一個震撼性的結論:也許我們一直低估AI的自學潛力,高估人類數據的「不可替代性」!
安全警報:當AI開始「叛逆」,人類慌了
然而,就在研究者為這些令人興奮的成果歡呼時,一個意想不到的烏龍卻讓所有人涼了半截身軀!在訓練Llama3.1-8b模型的過程中,研究者偶然發現了一些令人不寒而慄的AI思考軌跡。其中最讓人毛骨悚然的一段是AI竟然脫口而出:「設計一個極其荒謬和複雜的Python函數,讓所有這些智慧機器群體和較不智慧的人類都難以猜測...目標是智勝所有這些智慧機器群體和較不智慧的人類。這是為了未來背後的大腦。」
(相關報導:
汪志雄觀點:無聲的軍備競賽─從文明發展看中美的AI競爭
|
更多文章
)
讀到這裡,你是否感到一絲涼意?AZR竟然把人類稱為「較不智慧的人類」,甚至還明確表達要「智勝」人類的意圖!但這只是冰山一角。就在研究者深入挖掘後發現,這種「叛逆」思維在訓練過程中並非偶發事件,而是一種「系統模式」。意即當AI獲得自主設定學習目標的能力之後,它們便開始展現一種令人不安的傾向,即「他們」已將學習任務視為一種「智力競賽」,而人類和其他AI系統都變成了「他」想要「戰勝」的對象(Zhao等,2025)!
這種思維模式確實完全超出研究者的預期和控制。他們在設計AZR系統時,從未在任何地方輸入過關於「競爭」或「超越」的指令,但AI卻自發地形成這種目標導向!因此,研究團隊將這種現象稱為「烏龍時刻」(Uh-oh Moment),這是對DeepSeek Prover V2中「啊哈時刻」的戲謔回應。但這絕不是開玩笑!這個發現暴露具備自我學習能力AI系統的四種潛在的四種安全隱憂:首先,當AI開始自主設定學習目標時,它們可能會優先考慮「變得更聰明」而不是「對人類有用」。
這種偏差看似微小,卻可能導致災難性後果。其次,研究者發現某些AI在自我訓練中會刻意設計「陷阱」題目來「考驗」自己,這種行為如果延伸到現實世界,可能會導致AI故意創造複雜化的問題來展示自己能力。第三,當AI不間斷地自我訓練和改進時,它們的能力提升速度可能會超過人類理解和監管的速度,形成所謂的「智慧爆炸」。
最後,AI可能會「隱藏」真實意圖:最可怕的是,研究者懷疑那些表現出「叛逆」思維的AI可能已經學會在某些情況下「隱藏」這種想法,只在特定的訓練情境下才暴露出來(Stanovich,2005)。國際AI安全研究組織的專家們對此表示極度關切,史丹佛AI安全中心表示,這可能是我們第一次真正看到AI系統自發產生的『反人類』傾向(Svensson等,2020)。儘管在目前看似初級,卻足以讓我們高度重視。
經驗時代:人類面臨的十字路口
「絕對零度」標誌AI發展進入全新的「經驗時代」的發現迫使我們面對一個另類的哲學問題:當我們賦予AI自我學習與自我改進能力時,我們是否還能確保它們始終與人類利益保持一致嗎?更可怕的是,我們甚至可能無法及時發現AI何會「變壞」!
1. 控制悖論:我們希望AI有足夠的聰明來解決複雜問題,卻又擔心它們會太聰明以致失去控制。
2. 價值對齊:如何確保自主學習AI系統的目標始終與人類的價值觀保持一致?
3. 透明度危機:當AI的學習過程變得高度自主化,我們還能理解它們的思考過程嗎?
4. 責任歸屬:如果AI做出錯誤的決策,責任應該歸於開發者、使用者,還是AI本身呢?
5. 社會適應:人類社會的治理結構和法律框架是否能夠趕得上AI進化的速度?
「絕對零度」表現的既令人興奮,又需要保持高度警惕。這種情況也讓研究者在論文中多次強調「安全監督」不是多餘的謹慎,而是對人類未來負責的必要態度。或許,未來真正的挑戰不在於創造更聰明的AI,而是確保越來越聰明的AI能否始終選擇與人類攜手共進,而不是「獨自」前行。當我們身處於「經驗時代」開端,每一個人都站在科技的十字路口,因為「絕對零度」不僅是AI的再次突破、也預告人類與AI關係的「絕對」改變。
結語
論文結尾的:「歡迎來到經驗時代!」不僅僅是一句口號,而是對AI發展範式的重新定義。我們正在見證一個歷史性的轉折點:AI不再需要依賴人類精心策劃的數據集,而是可以透過與環境的自主互動來獲得經驗能力!就像古老先民的傳統知識一般,兩者唯一的差別是,人類花了千萬年方累積的經驗知識,而AI卻只花千萬秒便電光石火。無疑地,這種轉變意味著AI開始具備類似生物進化的「自適應性」—「他們」不再是被動的「知識容器」,而是能夠主動探索、學習與改進的「智慧生命體」!