為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類-風傳媒

為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類

背信轉向可以起因於「為了之後的出擊，而在弱小時表現得良善並打造實力」的策略決定，但這個模型的詮釋不該太過狹義。舉例來說，一個人工智慧可能會為了獲得存命並繁盛的機會，而不會表現得太善良。反之，一個人工智慧有可能會算出，如果自己被毀滅了，打造它的程式設計者將開發另一個略為不同的全新版本人工智慧架構，但仍會給予一個類似的評估函數。在了解自己的目標未來仍會在下個程式持續下去的情形下，原本那個人工智慧就有可能會置己身存亡於度外，甚至可能選擇某種策略，讓自己以某些特別有趣或是可靠的方式失靈。雖然這也許將導致它被消滅，但有可能激勵「驗屍」的工程師為人工智慧動力學收集到有價值的新洞見，並更加信任自己設計的下一個系統，因此讓已消滅的祖代人工智慧更有機會達成目標。還有許多可能的策略思考也會影響先進的人工智慧，如果我們認為自己全部都可以料到，未免也太過傲慢，對於一個實現研擬策略超級能力的人工智慧來說，情況更是如此。

[啟動LINE推播] 每日重大新聞通知

當人工智慧發現了一個意料之外的方法，能讓它按照指令滿足終極目標時，也可能發生背信轉向。舉例來說，假設一個人工智慧的目標是「讓計劃的資助者開心」。人工智慧一開始想要達到這個結果的方法，是用一些刻意的態度，表現出讓資助者開心的樣子。它可能會對問題提出有用的解答；展示出討喜的個性；然後幫忙賺錢。人工智慧愈有能力，表現就愈令人滿意，一切就這麼按照計劃進行。直到有一天，人工智慧夠聰明了，發現它可以把電極植入資助者腦中的愉悅中心，藉由這種保證能取悅資助者的方法，更全面且可靠地實現終極目標。當然，資助者並不想藉由變成白痴來獲得喜悅，但如果這是最能實現人工智慧終極目標的行動，人工智慧就會這麼做。如果人工智慧已經具有關鍵策略優勢，那麼任何阻止的嘗試都會失敗。但如果人工智慧尚未擁有關鍵策略優勢，那麼它可能會暫時隱藏自己實現終極目標的狡猾想法，直到它夠強壯，無論資助者還是其他人都無法反抗。不管哪種情形，我們都會面臨背信轉向。

作者介紹：尼克．伯斯特隆姆（Nick Bostrom）

牛津大學哲學系教授，其學術背景包含理論物理學、計算神經科學、數學邏輯、人工智慧以及哲學。他在全球五十歲以下的哲學家中被引用次數最多，擁有廣泛的影響力。伯斯特隆姆同時是牛津馬丁學院人類未來研究所（Future of Humanity Institute）的創立者和所長。這個跨學科的研究中心聚集了一群傑出的數學家、哲學家和科學家，共同致力於深入探索人工智慧的安全與政策、生物安全、宏觀策略、數位思維倫理等關鍵科技與基礎問題。

伯斯特隆姆的學術成就與貢獻受到廣泛讚譽。他是TED大會的常客，多次在此發表演講，並且已接受超過一千次來自各類媒體的採訪。他的學術實力和影響力使他兩度榮登《外交政策》（Foreign Policy）雜誌的全球百大思想家名單，並且作爲最年輕的思想家之一，他也成功躋身於《展望》（Prospect）雜誌的世界思想家排行榜前十五位。

除此之外，伯斯特隆姆相當多產，已出版約二百篇著作，包括具有開創性的《人類偏誤》（Routledge）、《全球災難風險》（編輯，牛津大學出版社）以及《人類增強》（編輯，牛津大學出版社）。他的學術作品被翻譯成三十多種語言，並在全球廣泛流傳。本書《超智慧》更是受到學術與實務領域推崇，每當人工智慧議題再起，必定名列經典必讀之作。

本文經授權轉載自感電出版《超智慧：AI風險的最佳解答》

責任編輯／郭家宏

1 2 3 全文閱讀

為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類

作者介紹：尼克．伯斯特隆姆（Nick Bostrom）

訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能

AI股價直直落，說好的應用爆發呢？原來投資人「高估」和「低估」這些因素

AI驅動「矽經濟」崛起！英特爾年底將推Intel 3　4年5節點製程開發計畫迎戰台積電

作者介紹：尼克．伯斯特隆姆（Nick Bostrom）

訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能

AI股價直直落，說好的應用爆發呢？原來投資人「高估」和「低估」這些因素

AI驅動「矽經濟」崛起！英特爾年底將推Intel 3 4年5節點製程開發計畫迎戰台積電

AI驅動「矽經濟」崛起！英特爾年底將推Intel 3　4年5節點製程開發計畫迎戰台積電