楊建銘專欄:後真相時代的大數據

2017-02-03 06:50

? 人氣

反川普示威者者把自己打扮成自由女神的模樣。(美聯社)

反川普示威者者把自己打扮成自由女神的模樣。(美聯社)

和許多人一樣,我也是在這次選舉後第一次認識了「後真相政治(post-truth politics)」這個名詞。

[啟動LINE推播] 每日重大新聞通知

雖然說從古羅馬時代以來,政治人物為了自己的利益曲解或者直接扭曲事實並不是新鮮事,但是這次選舉裡川普鋪天蓋地地信口雌黃,結果反而為他贏得選戰的結果,讓這個在1992年由塞爾維亞裔美籍劇作家Steve Tesich首次使用的名詞,在短短時間內走紅,進而被牛津大詞典選為2016年關鍵字

然而真相到底是什麼?不同於柯南一廂情願的台詞「真相永遠只有一個」,人類對於真相的「解讀」向來都比真相「本身」更有興趣。取決於真相的本質和呈現方式,對於真相的解讀本來就會從黑白分明(被害人已經斷氣),到證據確鑿(監視器錄下嫌疑犯以利刃刺殺被害人),到無法排除嫌疑(嫌疑犯沒有不在場證明),乃至於由統計學推測的機率(根據嫌疑犯過去二十四小時手機定位的資料,有30%的機率兇手其實另有其人)。

以希拉蕊的「電郵門」為例,在這個爭議中假說為「希拉蕊使用私人郵件伺服器是不當行為」,而不是「希拉蕊使用私人郵件伺服器」,因為希拉蕊使用私人郵件伺服器是黑白分明的事實,CIA的調查主要是為了找到這樣的事實和可能的不當行為的關聯性。

而就像要證明「上帝存在」永遠比「上帝不存在」容易,要證明希拉蕊「有不當行為」也遠比「無不當行為」容易多了,換句話說一旦指控希拉蕊「有不當行為」,任何的調查最多都只能以「根據所有的證據顯示,查無不當行為」作結。

FBI表示將重啟對希拉蕊電郵門的調查。(美聯社)
FBI表示將重啟對希拉蕊電郵門的調查。(美聯社)

對於受過專業科學方法訓練的政治學家、經濟學家、歷史學家、科學家、工程師、律師、醫師、建築師⋯⋯等來說,「根據所有的證據顯示,查無不當行為」是一個事實,最少在這個事實被推翻之前。

但對於沒有受過科學訓練甚至鄙夷科學訓練的人來說,「根據所有的證據顯示,查無不當行為」不是一個事實,只是一個狀態,希拉蕊肯定有不當行為,只是還沒找到而已。

相較之下,川普雖然滿口鬼扯,但跟他相關的所有爭議司法案件,包含已經被判決以及還在訴訟中的,幾乎都很明確:他有不當的行為。弔詭的是,這種明確性反而讓川普的這些案件在選戰中失去討論的意義,因為一點都不模糊,所以沒有啥好討論的,剩下的只有作為一個選民的道德判斷:個人對於這些不當或者違法事實到底是嫉惡如仇,或者聳聳肩而已。

如果說上述這樣的定性(qualitative)事實辯論都已經充滿不確定性,定量(quantitative)的辯論如果放在民主的議論市場中,幾乎可以說從一開始就被判了死刑。

當十九世紀英國首相迪斯雷里透過馬克吐溫的筆留下「世界上有三種謊言:謊言、該死的謊言和統計數字」這個千古名句時,他是站在菁英彼此針鋒相對的立場上的,具有投票權的庶民並不在他的考慮範圍中。彼時的民主體制下,投票權並非普及全公民,資訊管道也有限,搭配上教育程度的差異,有投票權的公民到底根據資訊做出多少判斷,其實一點都不重要,重要的是候選人如何在公共辯論中呈現一種優越性,讓愚民們為他投下一票,因此曲解統計數字來為自己的辯論提供一種優越性,是政客很核心的選舉策略之一。

而統計數字之所可以被曲解,在於統計學本身所要處理的對象的多樣性和發散性,以至於統計學必須發展出許多嚴謹的邏輯和數學工具,來處理沒有絕對結論的客觀標的。

統計學這個工具到底有多麼違反人性,下面摘錄維基百科中文版關於「假設檢定(hypothesis testing)」這個條目中的舉例說明:

淑女品茶是一個有關假設檢定的著名例子,費雪的一個女同事聲稱可以判斷在奶茶中,是先加入茶還是先加入牛奶。費雪提議給她八杯奶茶,四杯先加茶,四杯先加牛奶,但隨機排列,而女同事要說出這八杯奶茶中,哪些先加牛奶,哪些先加茶,檢驗統計量是確認正確的次數。零假設是女同事無法判斷奶茶中的茶先加入還是牛奶先加入,對立假設為女同事有此能力。

若單純以機率考慮(即女同事沒有判斷的能力)下,八杯都正確的機率為1/70,約1.4%,因此「拒絕域」為八杯的結果都正確。而測試結果為女同事八杯的結果都正確,在統計上是相當顯著的的結果。

——能夠真正看懂這個「舉例說明」的讀者,如果不是已經受過統計學訓練,就是極度聰明,再不然就是瘋子。

仕女品茶先放茶還是先放奶,也能成為統計學上假設檢驗的例子。
仕女品茶先放茶還是先放奶,也能成為統計學上假設檢驗的例子。

從這裡我們知道,統計學的存在本身就是一個弔詭:為了解釋高度發散的眾民或萬物之事,人類發展出了只有少數聰明人可以理解的統計學。本質上統計學應該是一個促進分散式系統或者民主的工具,但因為其違反智人(homo sapiens)賴以生存的經驗主義,因此很反民主地只有少數菁英才能掌握。

這種不對稱性,讓近代史上不同領域的菁英賺飽了名聲、權力或者荷包,或者三者通包——九十年代以後的華爾街量化分析師(quants)就是一個很好的例子。直到我們不可避免地迎來了「後真相政治(post-truth politics)」的時代,在這樣的時代中,大眾厭倦於各種互相衝突的數據分析結果以及專家的複雜理論,從而選擇仰賴其本能和直覺,甚至是仰賴Jonathan Haidt教授所說的「噁心感(disgust)」。

這種「返璞歸真」,乍看之下似乎是顛覆了統計學乃至於大數據的專家文化,是庶民的勝利,但事實上只是回溯了十九世紀迪斯雷里說出那句名言的年代——一個由菁英透過資訊不對稱壓榨庶民的年代,隨著川普任命史上最多的億萬富豪進入內閣,司馬昭的心不只路人皆知,連懶得上路的阿宅都難以逃過推特的轟炸。

比較不為人注意的,是除了像川普以及其親朋友這些政治菁英以外,潛在的壓榨者還包含了累積出越來越多大數據的科技公司們。

川普新政府,左起:川普女婿庫許納、白宮政策顧問米勒、白宮策略長巴農(AP)
川普新政府,左起:川普女婿庫許納、白宮政策顧問米勒、白宮策略長巴農(AP)

不同於政治菁英終究得在政治舞台上、在某個時間點接受群眾的檢驗——如果在川普任期結束前國會都沒有進行任何彈劾的話,美利堅合眾國基本上可以解散了——以十倍速百倍速前進的科技公司,要不就低調地潛行,要不就是有著各種可以轉移焦點的話題,不管是哪一種形式,它們都以前所未有的速度,累積著關於使用者和消費者的大量虛擬和實體數據。

不同於由政府的各種統計機構辛苦而高成本地進行的普查,這些科技公司搜集數據的方式,除了網際網路使用者每一分每一秒自願地雙手奉送以外,還開始追加了各式各樣的IoT感測器。這些數據全天無休地不斷送往雲端,然後交由日新月異的機器學習(machine learning)平台去理解和學習,從而驅動新的使用者應用,或者新的科技公司轉換獲利工具。

如果說不願、沒空或無能力動大腦的群眾,對於檯面上的數據專家都願意採取不合邏輯的情緒性反撲,那麼他們更不可能對於高深複雜的科技公司發動集體性的杯葛或者反制,尤其是傳統上代表民眾制衡這些科技公司的政府機構,例如歐盟執委會或者美國國際貿易委員會,現在正淪為群眾情緒抵制的對象。

從這個角度來看,當眾人關注著歐威爾名著【一九八四】在亞馬遜書店銷售一空時,也許更值得玩味的是亞馬遜書店在這整個過程中累積的數據資料,將如何地被充分掌握統計學和大數據的科技公司悄悄地應用,從資訊不對稱結構中榨取出白花花的銀子。

而不同於以希拉蕊電郵門為藉口投票給川普的厭女主義白種男人,這回將沒有一次性的選舉可以讓「自以為」被剝削的人爽爽地來一次「up yours!」,而將會是隱密而沒有哀號聲的凌遲致死⋯⋯

*作者為台灣大學電機畢業,在台灣、矽谷和巴黎從事IC設計超過十年,包含創業四年。在巴黎工作期間於HEC Paris取得MBA 學位,轉進風險投資領域,現為Hardware Club合夥人

喜歡這篇文章嗎?

楊建銘喝杯咖啡,

告訴我這篇文章寫得真棒!

來自贊助者的話
關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章