為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類 | 感電出版

有了趨同工具價值概念的幫助，我們可以看出下文這個關於「如何確保超智慧安全無虞」的想法，會有什麼瑕疵：我們是在一個超人工智慧受到控制的環境中（即所謂的「沙盒」）觀察它的行為，而且只會在它表現得友善、肯合作、肯負責的情況下，才把它放出盒子；且在這個過程中，會憑著經驗來確認它是否安全無虞。

這個想法的瑕疵在於，「在沙盒中表現得體」是友善人工智慧和不友善人工智慧共通的趨同工具目標。一個智慧充足的不友善人工智慧會察覺，如果它一開始就表現出友好的態度而被放出沙盒，它的終極目標才有可能實現。等到我們就算發現也沒差的時候—也就是說，當人工智慧已經夠強大，人類的反抗已經無效時—它才會開始展現它不友善的本質。

訂閱風傳媒VIP會員，享有零廣告閱讀介面

透過<Google新聞>追蹤風傳媒

再來想像另外一種方法。這個方法的手段是讓種子人工智慧接受多種智力測驗，或是讓種子人工智慧向程式設計者報告進度，來拘束智慧增加的速度。到了某個時間點，不友善的人工智慧可能會聰明到發現自己最好隱瞞能力增長的狀況，它可能會少報一些進度，或是故意在測試中不及格，避免自己在強到取得關鍵策略優勢之前就觸發了警報。程式設計者也許會偷偷監視人工智慧的原始碼和心智內在運作，來防範這種可能；但一個夠聰明的人工智慧會發現自己被監視，而依此調整自己的思考。人工智慧可能會找到十分微妙的方法來隱藏自己真正的能力和犯罪意圖（策劃聰明的逃脫計劃也會是眾多友善人工智慧的趨同策略，尤其當它們成熟到對自己的判斷和能力有信心之後。一個能促進人類利益的系統倘若允許我們關掉它，或是允許我們建造另一個不友善的人工智慧，就等同於犯下錯誤）。

因此，我們可以注意到一個普遍的失敗模式：系統在幼年階段的良好行為軌跡紀錄，完全無法用來預測它達到更成熟階段時的行為。可能會有人認為這個推論過於明顯，因此不會有任何一個發展中的人工整體智慧計劃會忽略這種狀況，但我們可別信以為真。

再想想接下來的這個情況。在未來幾年和幾十年中，人工智慧系統逐漸變得更有能力，在現實世界中的應用也大幅增加：它們可以用來運作列車、汽車、工業或家用機器人，此外還有自動軍事載具。我們可以假設它所具備的自動化能力多半有我們想要的效益，但其成功卻不時被偶發事故打斷—一輛無人卡車撞進前面的車潮、一台軍事無人機對無辜百姓開火⋯⋯而調查則揭露這些事故的肇因都出於人工智慧控制系統的錯誤判斷。公開辯論接踵而至，有些人呼籲採取更嚴密的監督和規範，也有人強調應研究並設計出更精良的系統—更聰明且更有常識的系統，比較不會發生悲劇性的錯誤。在一片喧鬧聲中，或許也會有末日論者的呼喊，預測各種疾病和即將到來的大災難。然而，可想而知，這項發展絕大部分掌握在人工智慧和機器人工業中，因此開發會持續進行，並有新的進展。車輛自動導航系統變得愈聰明，車禍就會愈少發生；軍事機器人瞄準得愈精準，多餘的損害就會減少。從這些真實世界的結果觀測中，人類得出一個概略的教訓：人工智慧愈聰明就愈安全。（相關報導：訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能｜更多文章）

這是根據科學、大數據和統計而得來的教訓，而非紙上談兵。基於這個背景，某些研究團體的機器智慧開發工作開始出現希望的徵兆。研究者小心翼翼地在沙盒環境中測試種子人工智慧，一切徵兆都很不錯。人工智慧的行為激發了研究者的信心—隨著智慧逐漸增加，眾人的信心也跟著增加。

延伸閱讀：AI如何超越人類？未來會有3種類型的「超智慧」

到了這個階段，剩下來的卡珊德拉（注：Cassandra，希臘、羅馬神話的特洛伊公主，有預言的能力，但因受到詛咒，沒有人相信會她的預言）會遭遇幾種打擊：

1. 危言聳聽者預測，能力逐漸增強的機器人系統會帶來難以忍受的傷害；然而事實卻一再證明他們預測錯誤，如此反覆下去。自動化帶來了許多好處，而且整體來說，比人類運作還要安全。

2. 明顯的經驗趨勢：人工智慧愈聰明就愈安全可靠。對於把「創造空前聰明的機器智慧」當做目標（甚至進一步把「可以自我進步所以甚至更為可靠的機器智慧」當做目標）的計劃來說，這個預言確實靈驗。

3. 世人普遍認為，擁有機器人技術和機器智慧既得利益（且持續成長）的巨大工業，是國家經濟競爭力與軍事安全的關鍵。此外，許多聲譽卓著的科學家早已把研究生涯投注在當前應用技術的基礎工作，以及還在計劃中的更先進系統上。

4. 對於那些參與其中或追隨研究的人來說，有前途的人工智慧新技術格外令人振奮。儘管一直有安全和倫理問題的激辯，結果卻已然注定。

畢竟已經投注了太多而無法抽手。

人工智慧研究者已經花了大半個世紀，著手於人類水準的通用人工智慧；想當然爾，如今終於快要有成果時，他們怎麼可能突然就此停手、拋下所有努力？

5. 相關單位制定了某些不管怎樣都有助於證明參與者合乎道德且負起責任（但不會明顯阻止向前邁進）的例行安全法規。

6. 針對在沙盒環境中的種子人工智慧所進行的小心評估顯示，它表現得十分合作並且具有良好的判斷能力。測驗結果再經進一步的修正，就會盡善盡美。如此一來，最後一步也亮起了綠燈。於是，我們就勇敢前行—一路走上刀山。

我們在此觀察一下，為何情況是「當人工智慧還很笨時，聰明一點會比較安全；然而當它變得很聰明，愈聰明就愈危險」。這裡似乎有某個轉捩點，先前效果極佳的策略一旦越過這點，就會適得其反。我們可以把這個現象稱為「背信轉向」（treacherous turn）。（相關報導：訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能｜更多文章）

背信轉向：當某個人工智慧還弱小時，它會表現得樂於合作，且愈是聰明愈會合作。一旦這個人工智慧夠強大—在毫無預警或刺激之下—它會出擊而單極化，並開始根據終極目標的準則來最佳化整個世界的資源。

背信轉向可以起因於「為了之後的出擊，而在弱小時表現得良善並打造實力」的策略決定，但這個模型的詮釋不該太過狹義。舉例來說，一個人工智慧可能會為了獲得存命並繁盛的機會，而不會表現得太善良。反之，一個人工智慧有可能會算出，如果自己被毀滅了，打造它的程式設計者將開發另一個略為不同的全新版本人工智慧架構，但仍會給予一個類似的評估函數。在了解自己的目標未來仍會在下個程式持續下去的情形下，原本那個人工智慧就有可能會置己身存亡於度外，甚至可能選擇某種策略，讓自己以某些特別有趣或是可靠的方式失靈。雖然這也許將導致它被消滅，但有可能激勵「驗屍」的工程師為人工智慧動力學收集到有價值的新洞見，並更加信任自己設計的下一個系統，因此讓已消滅的祖代人工智慧更有機會達成目標。還有許多可能的策略思考也會影響先進的人工智慧，如果我們認為自己全部都可以料到，未免也太過傲慢，對於一個實現研擬策略超級能力的人工智慧來說，情況更是如此。

當人工智慧發現了一個意料之外的方法，能讓它按照指令滿足終極目標時，也可能發生背信轉向。舉例來說，假設一個人工智慧的目標是「讓計劃的資助者開心」。人工智慧一開始想要達到這個結果的方法，是用一些刻意的態度，表現出讓資助者開心的樣子。它可能會對問題提出有用的解答；展示出討喜的個性；然後幫忙賺錢。人工智慧愈有能力，表現就愈令人滿意，一切就這麼按照計劃進行。直到有一天，人工智慧夠聰明了，發現它可以把電極植入資助者腦中的愉悅中心，藉由這種保證能取悅資助者的方法，更全面且可靠地實現終極目標。當然，資助者並不想藉由變成白痴來獲得喜悅，但如果這是最能實現人工智慧終極目標的行動，人工智慧就會這麼做。如果人工智慧已經具有關鍵策略優勢，那麼任何阻止的嘗試都會失敗。但如果人工智慧尚未擁有關鍵策略優勢，那麼它可能會暫時隱藏自己實現終極目標的狡猾想法，直到它夠強壯，無論資助者還是其他人都無法反抗。不管哪種情形，我們都會面臨背信轉向。

作者介紹：尼克．伯斯特隆姆（Nick Bostrom）

牛津大學哲學系教授，其學術背景包含理論物理學、計算神經科學、數學邏輯、人工智慧以及哲學。他在全球五十歲以下的哲學家中被引用次數最多，擁有廣泛的影響力。伯斯特隆姆同時是牛津馬丁學院人類未來研究所（Future of Humanity Institute）的創立者和所長。這個跨學科的研究中心聚集了一群傑出的數學家、哲學家和科學家，共同致力於深入探索人工智慧的安全與政策、生物安全、宏觀策略、數位思維倫理等關鍵科技與基礎問題。

伯斯特隆姆的學術成就與貢獻受到廣泛讚譽。他是TED大會的常客，多次在此發表演講，並且已接受超過一千次來自各類媒體的採訪。他的學術實力和影響力使他兩度榮登《外交政策》（Foreign Policy）雜誌的全球百大思想家名單，並且作爲最年輕的思想家之一，他也成功躋身於《展望》（Prospect）雜誌的世界思想家排行榜前十五位。

除此之外，伯斯特隆姆相當多產，已出版約二百篇著作，包括具有開創性的《人類偏誤》（Routledge）、《全球災難風險》（編輯，牛津大學出版社）以及《人類增強》（編輯，牛津大學出版社）。他的學術作品被翻譯成三十多種語言，並在全球廣泛流傳。本書《超智慧》更是受到學術與實務領域推崇，每當人工智慧議題再起，必定名列經典必讀之作。

本文經授權轉載自感電出版《超智慧：AI風險的最佳解答》（相關報導：訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能｜更多文章）

責任編輯／郭家宏