張經緯觀點:Google AlphaGo人機大戰,熱鬧之外的省思

2016-03-16 06:30

? 人氣

李世乭對戰AlphaGo。(美聯社)

李世乭對戰AlphaGo。(美聯社)

博弈遊戲

常見博弈遊戲中橋牌、麻將有隨機的成分,無人能絕對控制輸贏。國際象棋、及中國象棋有明確的輸贏準則(把對方將死或和局),棋子功能不同,皇后、及車比其它棋子對勝負有更大的影響力,各棋子通常會被賦予不同的權重。圍棋與其它博弈遊戲相比有基本上的不同,棋子完全相同等值,只在團體合作下才對輸贏產生影響。棋局的各個階段(佈局、中盤和官子)可以發生戲劇性的大逆轉,30目的棋會隨交換被提掉,最終勝負可能只在2-5目之間。

[啟動LINE推播] 每日重大新聞通知

國際象棋、中國象棋、圍棋棋步及經典對局

國際象棋及中國象棋比賽大約40手棋結束賽局。國際象棋根據線上對弈統計得出大部分棋手下到40手就分出勝負,全球性比賽也多半在43、44手棋結束。中國象棋錦標賽冠軍棋賽從27到72手棋結束,多數下到38到40手輸贏便見分曉。圍棋會因棋力程度而有比較大差異。當湖十局下了223到341手棋分勝負,平均是277手棋。圍棋一般需要60手棋之後才能看出大勢,300手棋左右開始清算戰果,也就是當棋盤上361個空格,80%都填滿了棋子之後才見勝負。

國際象棋、中國象棋及圍棋有全球眾多同好,一些經典對局至今仍為人傳頌。國際象棋以不朽(the Immortal)及長青(the Evergreen)最為經典,紐約時報在2013年將之並列國際象棋史上最精彩棋局(Two of the World’s Best in a Game for the Ages)。中國象棋則不重棋步,著重殘局,以四大江湖名局(野馬操田、蚯蚓降龍、七星聚會、千里獨行)為最為經典。中國象棋未得到國際財團青睞,80年代中國象棋冠軍獎金只有50元人民幣,90年代冠軍獎金才突破萬元大關,2001年第一屆BGN世界象棋挑戰賽冠軍獎金美金10萬元,遠不如圍棋冠軍獎金三、四十萬美金。根據《國際棋聯稱號條例》標準,有楊官璘(故)、胡榮華、李義庭等近30位中國男子象棋特級大師。中國象棋海外經典名局一書挑出14局比賽棋譜,可略知中國象棋經典名局。圍棋最著名棋局公認當湖十局,乾隆年間范西屏與施襄夏在當湖對弈,各勝5場。2014年古力李世乭十番棋想再現當湖十局雄風,可惜八局之後李世乭便以6比2勝過古力,結束比賽。百年圍棋經典名局一書挑出20世紀初吳清源,世紀末李昌鎬的幾場棋賽作為當代圍棋名局的代表,二人也被譽為20世紀天才型圍棋大師。

國際象棋人機大戰

1997年IBM超級電腦深藍與當時國際象棋冠軍卡斯帕羅夫下六盤棋,電腦以3勝2負1和獲勝,讓電腦人工智慧(Artificial Intelligence, AI))大大揚眉吐氣。當時卡斯帕羅夫曾懷疑第一局第44步棋電腦走的太有智慧及創意,背後可能有人類大師影響深藍走棋要求重新比賽,但被IBM拒絕。多年以後IBM深藍小組坎貝爾(Murray Campbell)表示當年電腦程式仍有漏洞(bug),如果電腦算不出對抗棋步時就隨機下一步棋,這步無厘頭的棋路把卡斯帕羅夫弄糊塗了,因而情緒大亂。2003年卡斯帕羅夫再戰更強的超級電腦X3D Fritz 與 Deep Junior,均能取勝並以和局收手。另一位國際象棋世界冠軍克拉姆尼克曾在2002年(2勝2負4和)及2006年(2:4戰敗)與超級電腦Deep Fritz對弈,此時電腦已經比大部分國際象棋高手更強。現今國際象棋軟體FritzHoudiniKomodo實力極強,能勝過它們的高手沒幾個,大家對國際象棋人機大戰已經失去興趣了。

中國象棋人機大戰

1988年舉辦第一屆電子計算機象棋大賽。1999年起開始舉辦人腦對電腦的象棋比賽,2010年第11屆人腦對電腦象棋大賽由國手劉國華(八段)、馬仲威(七段)與象棋世家、鷹眼對奕,結果一勝兩和一負平手收場。電腦程式棋天大聖(2006, 2007年電腦奧林匹亞金牌)在2007年與象棋特級大師吳貴臨對弈兩局皆以和局收場。2006年起中國機器博弈錦標賽開始每年舉辦,由比賽棋類電腦軟體(電腦程式)對弈。

2006年後電腦象棋棋力已經可以與象棋高手抗衡。目前比較知名電腦象棋有象棋名手、佳佳象棋、象棋旋風、象棋奇兵。

圍棋人機大戰

電腦圍棋始於1970年代,普通棋手都可以輕易打敗電腦圍棋。應氏盃創辦者應昌期在1986年看到電腦圍棋連兒童組冠軍都贏不了,懸賞100萬美元獎勵研發能打敗圍棋冠軍的圍棋軟體(截至期至2000年底)。2015年3月,一款由韓國專家林宰范(Lim Jae-bum)開發的「石子旋風」(Dol Baram),在趙治勳九段讓四子的情況下竟獲得勝利。11月在北京舉行的世界計算機圍棋錦標賽冠軍軟體「石子旋風」,與中國新科名人冠軍連笑七段交手在讓六子後險勝一盤。中國圍棋隊總教練俞斌九段認為最好電腦圍棋也許尚未達到業餘5段,離戰勝職業高手還相當遙遠。沒想到AlphaGo早在一個月之前以5:0擊敗了歐洲圍棋冠軍樊麾二段,掀起了人機大戰另一波熱潮。2016年3月9日AlphaGo挑戰圍棋一流職業高手李世乭九段,第一盤比賽李世乭就在186手棋投子認輸。後續4局成績尚待揭曉。除上述兩個電腦圍棋之外比較知名的電腦圍棋另外還有Crazy Stone、Zen(Tencho no Igo)及後起之秀Darkforest。

圍棋人工智慧看點

國際象棋及中國象棋棋盤及棋路變化較小,採用窮盡搜索(蠻力搜索Brute-Force Search)評估棋路變化即可對弈。圍棋361格(19x19)變化太多,難以窮舉必須另謀他圖。2006年Crazy Stone開發人Rémi Coulom提出「蒙地卡羅樹搜尋」(Monte Carlo Tree Search MCTS)與「樹狀結構信賴上界法」(Upper Confidence bounds applied to Trees)辦法之後電腦圍棋實力才有長足進步。AlphaGo是Google DeepMind公司的產品,Google在2014年將DeepMind收購,並僱用其執行長人工智慧專家傑米斯·哈薩比斯(Demis Hassabis)發展人工智慧。AlphaGo將幾種人工智慧「評估網路(value network)」、「策略網路(policy network)」及快速推出(Fast rollout)配合MCTS選擇落子位置,開啟了電腦圍棋另一境界。評估網路選擇可以落子的位置,先快速粗略篩選出幾種可能落子位置,再由策略網路評估落子位置下到終盤對勝負影響,如果策略網絡評價太低就不需要繼續下下去而直接將該棋路淘汰,最後再決定理想落子的位置。幾種神經網路彼此交互運作,大大降低需要計算及評估的棋路,從而選出較為理想的下棋位置。Google在2013年併購DNNresearch公司並把它的創辦人傑弗里·辛頓(Geoffrey Hinton)一起僱進Google發展深度學習(deep learning),辛頓能讓電腦電腦像人類一般可以自我學習。AlphaGo已把深度學習納入體系,讓學習過圍棋的幾台電腦對弈,增強學習效果。當宣布與李世乭競技之後,AlphaGo每天不斷對弈300盤圍棋,根據哈薩比斯評估,AlphaGo已經受過人類專家下圍棋的3,000萬種步驟訓練,又跟電腦反覆對弈,具備相當於人類1000年的學習量。到比賽時候AlphaGo已經以幾乎全勝的結果擊敗所有現有其它知名電腦圍棋及三屆歐洲冠軍職業二段樊麾。

AlphaGo採用4種主要演算法,其中評估網路及策略網路是深層多層人工神經網絡(deep artificial neural network),人工神經網絡模仿生物神經經過反覆連接而產生判斷或決策能力。根據Rémi Coulom的說法:AlphaGo裡面包含1層5×5的卷積(convolution)及11層3×3的卷積,最多可產生13個節點(神經元)相互聯接的卷積神經網絡(Convolutional Neural Network, CNN)。經過訓練樣本輸入層(Input layer)的反饋,各層會調整權重建立輸出層(Output layer)行為準則。譬如Google街景為確保隱私將街頭車牌及人臉模糊,如果用人工處理無論時間及人力任何企業都無法負擔。一般人工神經網絡模型都是針對特定活動及特定輸入資料而建立,屬於狹義人工智慧(Narrow AI),而AlphaGo採用一般化人工智慧(General AI)可以對同類型活動一體適用,其特殊之處會從輸入樣本自動分辨那些是相關訊息,那些是雜訊,由演算法判斷不需要人為介入。DeepMind曾展示用一般化人工智慧訓練電腦玩所有80年代雅達利(Atari)電腦遊戲,學習一天之後已經超越大部分高級玩家的成績(參看YouTub Deepmind DQN Playing)。

賽前預測與初步結果

根據AlphaGo與樊麾所下的五盤棋,幾乎所有圍棋專家及圍棋電腦開發人都認為電腦還不足與人類圍棋冠軍抗衡。五個月之後AlphaGo是否能進步到勝過圍棋頂級高手,則待比賽結果驗證。李世乭賽前誇下海口說如果輸AlphaGo一盤都覺丟臉,完全不把AlphaGo放在眼裡。Crazy Stone開發人Rémi Coulom認為電腦圍棋終究會勝過人類圍棋頂級高手,也許快則1、2年,慢則10年。「石子旋風」開發人林宰范也發表類似看法。Facebook開發的Darkforest開發人田淵棟則不願意預測只說期待結果。其它名人除了王小川(搜狗CEO)預測AlphaGo完勝之外,李開復(曾任微軟和Google高層主管)、柯潔(世界圍棋冠軍)及聶衛平(中國棋聖)都看好李世乭。

3月9日及10日比賽結果,李世乭分別在186手及第211手棋認輸敗給AlphaGo。

為何人工智慧終究會勝過棋藝高手

理論上電腦可以窮舉所有棋路,人類下一手棋,電腦可以從所有組合中跳出勝選棋路打敗人類。人類受智能限制只能預測未來5步左右的棋路比不過電腦窮盡搜索。目前因為電腦受限於計算時間,無法窮舉所有棋步,還無法發展出戰無不勝的程式。隨電腦速度突飛猛進及演算法的改良,電腦棋力越來越強,窮舉棋路的深度會越發深遠,下棋成為固定解,勝棋也就必然。

圍棋是所有流行棋類中排列最多的遊戲,但是隨著棋步增加,剩下需要窮舉的棋步呈指數減少,所以棋力會越下越強。而人類體力及注意集中力會隨棋盤中的複雜性遞減。如果不能在與電腦對弈的起頭佔盡優勢,想在後面翻盤機會越發渺茫。李世乭與AlphaGo對弈兩盤棋賽前盤都有優勢,後來電腦越戰越勇,人腦越戰越慌,一出錯就全盤皆輸。

圍棋人機大戰所學到的教訓

李世乭與AlphaGo對弈並非一對一,而是一對整組圖隊,比賽本身就不公平。AlphaGo事前已經輸入所有李世乭公開棋賽的棋譜,對其策略及風格已經了然心中。反之李世乭只看過AlphaGo跟樊麾五場實力不強的戰局,敵暗我明。如果讓AlphaGo對抗圍棋高手團,結局未必相同。當然單機電腦圍棋棋力已經強過大部分業餘棋士已無爭議,但是人機實力並不能從幾次對抗就下定論。AlphaGo如果沒有DeepMind所準備的3000萬學習棋譜不會變強大。每天電腦對弈一盤需要花費美金300元,300盤就是9萬,加上DeepMind100多人的公司後勤及軟硬體及多年研發維護費,勉強勝過一人,沒有贊助企業是不可能實現的。DeepMind CEO哈薩比斯評論深藍與卡斯帕羅夫國際象棋之戰,他敬佩卡斯帕羅夫遠勝深藍,他說深藍除了下棋之外一無是處,連系鞋帶都不行,而任何人生活上各種活動的豐富性及能力,是電腦遠不能及的。

要戰勝AlphaGo並非難事,只要使用逆向工程找出AlphaGo的罩門,把被AlphaGo打敗的棋局輸入AlphaGo再換邊對打,記錄AlphaGo的棋步再反饋給AlphaGo換邊再戰,直到AlphaGo的棋步不再變化,就可以用此棋譜戰勝AlphaGo。可以用電腦執行逆向工程,但是這就變成求解過程而失去下棋的趣味。人機大戰無論電腦或人腦誰贏,都不會留下不朽名局。除非讓電腦窮舉所有棋步,不然「不朽」、「長青」及「當湖十局」這些生動有生命力的不朽棋局不會出現。

AlphaGo展示的一般化人工智慧及電腦深層學習,給未來社會走向有極好的示範。一般化人工智慧讓學習範圍更為方便廣泛,電腦深層及自我學習警戒不學習的社會成員將會被電腦人工智慧所取代。人類靠學習而強大,隨著大資料的累積及存在,電腦有機會自我學習會變得更迅速強大,可以取代或打敗不學習喪失競爭力的人類。

1995年人工智慧有本質上的躍進。一般性人工智慧、自動駕駛、法律文件判讀、智能行事歷及旅遊排程、商業談判、自主殺傷性武器發展、自動診斷、遠端醫療都在大資料逐漸完備之後突飛猛進。加上遠端教學、3D列印、無人飛行器及自主機器人讓未來變成另一種社會形態。國界已經因為網絡、通訊及交通基礎建設普及而消失,如果我們仍墨守成規,將會被其它進入未來社會的世界公民取代及支配。

電腦圍棋的幕後英雄

哈薩比斯是AlphaGo人機大戰最大贏家,《金融時報》(Financial Times)已經在AlphaGo打贏李世乭兩盤之後在3月11日撰文稱讚哈薩比斯大師開啟新機器時代的新頁(Demis Hassabis, master of the new machine age),哈薩比斯父親是希臘人,母親是華裔新加坡人。4歲開始下國際象棋,13歲獲得ChessMaster頭銜,世界青年棋士排名第2,在劍橋大學讀大學時學會下圍棋,有業餘一段實力。在2009年從倫敦大學學院(University College London)獲得神經科學博士,哈薩比斯的指導教授是愛爾蘭美女科學家Eleanor Maguire,24歲就從都柏林大學拿到博士學位。哈薩比斯畢業不久就於2010年和同學一起創業開了DeepMind公司,專攻一般性人工神經網路。2013年Facebook想併購DeepMind但條件沒談攏,Google立刻在2014年1月買下DeepMind改名為Google DeepMind。

AlphaGo去年也曾打敗歐洲冠軍樊麾。(網易)
AlphaGo去年也曾打敗歐洲冠軍樊麾。(網易)

AlphaGo是DeepMind打響全球知名度的產品,兩位主要開發員工,一位是台灣師大資訊工程黃士傑(Aja Huang) 博士,曾在2010年國際電腦奧林匹亞競賽以圍棋程式"Erica"獲得19路電腦圍棋金牌,具有圍棋業餘6段的棋力,他的博士論文主要由開發"Crazy Stone"的法國學者Rémi Coulom博士指導。Coulom後來為了他的愛好,放棄他在The Charles de Gaulle University – Lille III副教授正職及Sequential Learning(SequeL)的研究工作,全職開發Crazy Stone及主持人工智慧遊戲(Game AI)論壇。

另一位David Silver博士是哈薩比斯的同學,也在2009年從倫敦大學學院獲得電腦博士,專長為機器學習。他們二人並列2016年1月Nature刊登“Mastering the game of Go with deep neural networks and tree search”的第一作者。

日本也在電腦圍棋發展多年。加藤秀樹開發的Zen連續在2016年KGS圍棋伺服器(KGS Go Server)1月及2月循環賽得冠,2016年3月1日多玩國(DWANGO)與日本棋院宣布他們和ZEN開發商加藤秀樹合作,已經推出世界上最強的AI圍棋“DeepZenGo”,具有職業5段的棋力,可以勝過AlphaGo。加藤秀樹在2104年得知AlphaGo採用人工智慧後,就努力朝增加人工智慧方向努力。多玩國有許多線上遊戲,具有人工智慧能力,二者結合如虎添翼,前景可期。

另一位電腦圍棋開發者也值得一提,是為Facebook開發Darkforest的田淵棟博士,在2013年從卡內基梅隆大學(Carnegie Mellon University)獲得博士學位,曾任職Google參與自動車的研發,後來被另一位深層學習大師法裔學者Yann Lecun延聘到Facebook發展人工智慧。他和另一位實習生朱岩用半年工餘時間替Facebook推出一套電腦圍棋Darkforest,他把程式放到KGS跟棋手在網路對弈,自己評估大概有五段實力。他說Darkforest比KGS奪冠的Zen還強,因為程式有漏洞使得下棋時間超時,排名第三。

當Nature刊登DeepMind圍棋運算邏輯之後,Rémi Coulom及田淵棟立刻研讀並且採用裡面點子改良自己電腦圍棋程式,紛紛表示自己開發的電腦圍棋實力又有進步。有了DeepMind公開圍棋運算點子之後,各種電腦圍棋實力會齊頭並進越來越強。

樊麾被AlphaGo打敗之後也痛定思痛,世界圍棋排名在4個月內,從633名提升到了300名之列。這些都是看到有價值東西就趕緊學習的好榜樣

熱鬧之後該如何

AlphaGo對李世乭的人機大戰點燃大眾對人工智慧的關注及興趣。尤其一般性人工神經網路的示範讓人會去思考如何推廣電腦到一般生活上的運用,不再是遙不可及專家的寵物及奢侈品。2015年12月科技巨頭共同承諾捐贈十億美元研發利他人工智能。讓機器幫助人會越來越普遍。

人工智能需要建立在既有的大資料上才能學習,並經由反覆學習才具備智慧。反觀現代人類不願意學習,大前研一在他「低智商社會」一書指出年輕人無志向,並且學習能力低下。

深度學習告訴我們智能不僅靠學習進步,還需要反覆鍛煉才能發展真正本事。我們看到幾位名人對AlphaGo人機大戰的評價及預期,卻看不到他們先去翻翻公開的理論講解,有了依據理解之後才評論。就直接憑直覺公開放話,結果當然是自取其辱。

希望高傲的李世乭及柯潔以後面對挑戰,首先充實自己讀讀公開的對手文章。如果自己讀不懂也找人替他們講解,這樣輸棋之後才能明白為何戰敗,而不是替自己找藉口然後依然故我。

*作者為管理博士,曾任職於中華經濟研究院,現旅居美國從事商業資料分析工作。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章