難題與進展：《眼見為憑》選摘（4）-風傳媒

難題與進展：《眼見為憑》選摘（4）

電腦也可以得到報償。在增強學習的過程中，電腦得找尋一個目標，它會隨便亂猜，剛開始都猜錯，但是如果某個猜測結果稍微接近目標，就會得到報償。電腦得到的報償不是一塊電腦狗糧，而是得到訊息：「幹得好，增強剛才你做出這個猜想時用到的突觸。」接下來電腦會繼續猜，這次會使用新的加權。接下來的步驟你可以想像出來：電腦會持續猜測，每次都調整加權，直到學得完成任務的方法。

[啟動LINE推播] 每日重大新聞通知

增強學習已經精通了一項極為艱難的技術：下西洋棋，以及更為困難的圍棋。現在電腦的棋力超強，完全勝過人類，而且他們還是自己教自己下棋。我想到的一個演算法是Alpha Zero，在二○一八年耶誕節前夕於《自然》雜誌上發表研究結果。研究人員只教Alpha Zero圍棋的規則：棋盤的模樣、下棋的方式等，之後演算法會自己和自己下西洋棋或是圍棋。這種作法聽起來違背直覺，重點在於每個「自己」並不知道另一個「自己」的思考內容，只知道對方下的棋步。也沒有教師，只有一些事先輸入的規則，讓電腦知道下的棋步是好是壞，以及判定輸贏的標準。四個小時後，電腦就具備了世界級的水準。

這真是非常了不起的成就，而且不只可以讓Alpha Zero下各種棋類，還可以讓它做別的事情。谷歌人工智慧團隊的大衛．希爾瓦（David Silver）展示了Alpha Zero利用遙控器操縱玩具直升機進行飛行特技，看到那個直升機進行筒狀翻滾飛行（barrel roll），真的讓人確信它有能力。

但是Alpha Zero真的比我的孫子聰明嗎？差得遠了（除非我孫子和它較量西洋棋）。電腦對於任務定義的範圍非常狹隘，而且體積要比我孫子的腦大多了，也不能光靠巧克力夾心餅乾就能運作。史密森尼學會（Smithsonian）的吳凱薩琳（Katherine Wu）估計，Alpha Zero硬體運作功率約為一百萬瓦，我孫子的腦只需二十瓦。會在這裡提到神經網絡和增強學習，是因為這兩者都屬於概念驗證（Alpha Zero內部採用了神經網絡），證明了這種邏輯運算的結果雖然距離腦還差得遠，但的確比較接近腦。

會在這裡提到神經網絡和增強學習，是因為這兩者都屬於概念驗證（Alpha Zero內部採用了神經網絡），證明了這種邏輯運算的結果雖然距離腦還差得遠，但的確比較接近腦。（hainguyenrp@pixabay）

人類的腦部是否也採用了類似深度神經網絡或是Alpha Zero所運作的方式？當然有，只是慢得不得了。人腦這種電腦是演化經由無數時光打造而成，其中的突觸和連結都縮小到極致。如果由一堆計算晶片組成的笨重電腦能夠辦得到，人腦也可以。

人工智慧領域中的人很清楚我的孫子遠勝過他們的電腦，並且也正在努力改進。每個人都猜電腦會有多聰明。我認為電腦最後會很聰明，我絕對不會想要和電腦競爭。有各種巧妙的無監督學習模式應用在電腦中，唯一的問題是要花多少時間才能追得上人腦，以及機器完成任務的方式和真正的人腦有多相近。更重要的是，機器完成任務的經濟效率能夠比得上人腦嗎，我會屏息以待這些結果。事實上就目前來說，光是超越人類的電腦所需要消耗的能量之高，就讓我無須擔心會電腦會掌控世界了。

1 2 3 4 全文閱讀

難題與進展：《眼見為憑》選摘（4）

誰是你的陪審團─你必須溝通並改變其立場的人：《好問》選摘（2）

換位思考─坐下來聆聽真實的人怎麼說：《好問》選摘（1）

一年366天，天天都有故事：《日本節日好吃驚》選摘

農民地位低下，卻更靠近上帝：《人類憑什麼》選摘

廖玉蕙專文：閱讀與寫作是一種心靈相互靠近的練習