楊建銘專欄:後真相時代的大數據

2017-02-03 06:50

? 人氣

當十九世紀英國首相迪斯雷里透過馬克吐溫的筆留下「世界上有三種謊言:謊言、該死的謊言和統計數字」這個千古名句時,他是站在菁英彼此針鋒相對的立場上的,具有投票權的庶民並不在他的考慮範圍中。彼時的民主體制下,投票權並非普及全公民,資訊管道也有限,搭配上教育程度的差異,有投票權的公民到底根據資訊做出多少判斷,其實一點都不重要,重要的是候選人如何在公共辯論中呈現一種優越性,讓愚民們為他投下一票,因此曲解統計數字來為自己的辯論提供一種優越性,是政客很核心的選舉策略之一。

[啟動LINE推播] 每日重大新聞通知

而統計數字之所可以被曲解,在於統計學本身所要處理的對象的多樣性和發散性,以至於統計學必須發展出許多嚴謹的邏輯和數學工具,來處理沒有絕對結論的客觀標的。

統計學這個工具到底有多麼違反人性,下面摘錄維基百科中文版關於「假設檢定(hypothesis testing)」這個條目中的舉例說明:

淑女品茶是一個有關假設檢定的著名例子,費雪的一個女同事聲稱可以判斷在奶茶中,是先加入茶還是先加入牛奶。費雪提議給她八杯奶茶,四杯先加茶,四杯先加牛奶,但隨機排列,而女同事要說出這八杯奶茶中,哪些先加牛奶,哪些先加茶,檢驗統計量是確認正確的次數。零假設是女同事無法判斷奶茶中的茶先加入還是牛奶先加入,對立假設為女同事有此能力。

若單純以機率考慮(即女同事沒有判斷的能力)下,八杯都正確的機率為1/70,約1.4%,因此「拒絕域」為八杯的結果都正確。而測試結果為女同事八杯的結果都正確,在統計上是相當顯著的的結果。

——能夠真正看懂這個「舉例說明」的讀者,如果不是已經受過統計學訓練,就是極度聰明,再不然就是瘋子。

仕女品茶先放茶還是先放奶,也能成為統計學上假設檢驗的例子。
仕女品茶先放茶還是先放奶,也能成為統計學上假設檢驗的例子。

從這裡我們知道,統計學的存在本身就是一個弔詭:為了解釋高度發散的眾民或萬物之事,人類發展出了只有少數聰明人可以理解的統計學。本質上統計學應該是一個促進分散式系統或者民主的工具,但因為其違反智人(homo sapiens)賴以生存的經驗主義,因此很反民主地只有少數菁英才能掌握。

這種不對稱性,讓近代史上不同領域的菁英賺飽了名聲、權力或者荷包,或者三者通包——九十年代以後的華爾街量化分析師(quants)就是一個很好的例子。直到我們不可避免地迎來了「後真相政治(post-truth politics)」的時代,在這樣的時代中,大眾厭倦於各種互相衝突的數據分析結果以及專家的複雜理論,從而選擇仰賴其本能和直覺,甚至是仰賴Jonathan Haidt教授所說的「噁心感(disgust)」。

喜歡這篇文章嗎?

楊建銘喝杯咖啡,

告訴我這篇文章寫得真棒!

來自贊助者的話
關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章