楊建銘專欄：大數據理想國已近？ | 楊建銘

我最近的專欄文章裡有兩篇與大數據有關，【品牌塑造的下個二十年】談的是臉書目標設定廣告對於品牌塑造的（無）效用，【避險基金管理人的末日與冷酷異境】談的是純粹以數據驅動的避險基金平台。有讀者向我質疑這兩篇文章對於大數據的立場似乎是相反的，【品】文是對大數據的批評，【避】文則似乎在歌頌最極端的大數據，所以到底我是看多還是看空大數據。

事實上兩篇文章的主題如果各自要深入探討的話，都是可以成書的大課題。相較於其他商業的領域，市場學和金融仰賴數據的歷史算比較久，無論支持或質疑大數據，都有無數的商學院論文可以背書，要蓋棺論定肯定還太早。

追根究底，大數據會成為熱門名詞，並不是因為出現了什麼新穎的數據分析理論——統計學早在西元前五世紀就已經被發明，大多數現代使用的統計分析原理也都在十九世紀以前就已經完備。大數據突然熱門起來，主要還是因為在網路和物聯網時代，數據的搜集遠比從前來得容易，量跟質都有顯著的指數成長。而隨著機器學習在硬體和軟體上的突破，搜集來的大數據（似乎）變得能夠分析了，也更進一步助長人們對於「大數據理想國」的想望。

以現階段來說，我認為大數據的「商業效用」仍然處於混沌不明的狀態。我這裡所說的「商業效用」包含了正確而客觀地理解分析結果，並能制定和執行有效的策略。以市場學來說，當然是意圖在於提高（難以捉摸的）品牌價值、銷售數字以及利潤，以金融來說則是產生高於指標的、經風險調整過後的回報率（risk-adjusted return）。

這裡我們觸及到大數據最大的弔詭：大數據看似處理的是冷冰冰的數據，但其目的卻是活生生的人類商業行為。後者受到各種人類非理性的本質所影響，冰冷的數據有時候有助於去除這些非理性本質而讓市場或者金融專家看到問題核心，但有時候卻會把本來就是非理性的一團混沌誤解成有秩序的假模型。

由於這波鼓吹大數據應用的文章已經相當的多，這篇專欄我們會專注在大數據所伴隨的風險上。

首先最根本的風險就是數據的正確性。當能取得大量的數據時，人類往往會產生錯覺，以為這些數據比少量的數據更接近真實。（相關報導：觀點投書：別再小確幸從大數據看金融整併｜更多文章）

以市場學來說，傳統上市場調查是聘請市調公司在街頭上或是商場裡，不厭其煩地請路人們填寫問卷或者回答問題。這樣的調查成本非常高，以致於樣本空間往往相對有限，分析出來的消費者族群或者傾向往往帶著較大的「信賴區間（confidence interval）」。進入網路時代後，突然間搜集問卷結果變得相對容易了，樣本空間隨之迅速擴大，反映在數據分析結果上就是「信賴區間」迅速縮小，也就是數據分析結果變得「更可信」了。但就像傳統街頭問卷有著消費者的答案不盡然與自己的消費行為相符合的問題，網路問卷所得到的結果也不見得跟事實相符合，尤其不管在電腦或者手機上，消費者的注意力都是發散的，便宜行事隨便勾選的狀況很普遍，這部分不見得能透過問題設計有效篩選。但不管正確與否，樣本空間變大是不爭的事實，因此而誤以為自己能更準確掌握消費者行為的市場專家大有人在。

金融上就更不用說了，以股票來說，除了股價和交易量可以由金融市場上「準確而即時」地得到以外，公司的營運數字和產業相關數字大多充滿模糊性，而且往往延遲甚久才能取得。事實上就連股價和交易量都不見得能視為「正確資料」——因為根據隨機漫步理論，市場交易價格只有在長期才會符合基本價值，短期會受到各種不明因素的影響，因此股價是典型的「準確」但不見得「正確」的數據，搜集再多也不見得能協助投資人做出好的投資決定。

數據的另一個明顯風險是「客觀性」

在市場學中，問卷的設計就很容易受到主觀的影響，根據這樣的問卷蒐集到的資料就算「正確」——亦即消費者認真憑著良心回答——也無法協助市場專家做出客觀的結論。

在金融上，「客觀性」更是專業投資人每天對自己耳提面命，卻常常很難達到的一個聖杯。事實上為了達到「客觀性」，金融理論要求從業人員對每一個投資的決定都進行統計學上的「假設檢定（hypothesis testing）」，而且還得從很不直觀的「對立假設（alternative hypothesis）」去驗證，才能回頭陳述直觀的「空假設（null hypothesis）」有多少可能性為真。但事實上是當市場在長期多頭，連傻子也都可以賺錢時，這些檢定大多會成功確認假設的正確，當市場崩潰導致假設被否定時，從業人員往往會傾向將市場崩潰當作是意料之外，在這樣的心理操作下，「客觀性」其實是完全不存在的。

數據的另一個風險是讓人產生「一切都在控制中」的錯覺，由於1.1比1.09多了0.01，因此我們感覺對於這兩個數據有了更深的理解，如果1.1比起1.09是我們更想要的結果，我們會傾向去找出可以讓1.09變成1.1的其他數據，並設定策略去影響那些數據。

但是不管在市場學或者金融理論中，都存在著「相關程度（correlation）」和「因果關係（causal）」的渾沌。有時候數據分析出來會讓人以為是因果關係，但有可能只是相關程度而已。經濟學家李維特在暢銷書【蘋果橘子經濟學】就舉過一個讓人印象深刻的例子：根據研究顯示，家中藏書超過一定數量的家庭，青少年在高中的學業表現較為優異。對於渴望「控制」的人性來說，可能會輕易達成「藏書多」代表「青少年讀書多」因此「學業成績優異」的結論，並建議家長以「藏書」做為可執行的策略。但李維特說經過其他數據交叉分析，他們發現藏書多的家庭多半父母受過高等教育，平均智商也較高，因此這些家庭的青少年學業成績較優異，可能只是遺傳了較高智商並且在較優渥的環境下成長而已。如果家長真的以為買很多書就能夠讓小孩「贏在起跑點」，那只是平白便宜了登門推銷百科全書的肥胖業務員而已。（相關報導：觀點投書：別再小確幸從大數據看金融整併｜更多文章）

另外一個大數據的明顯風險：如果大家都擁有一樣的大數據，那麼就沒有人有相對優勢

這個正是現在上市股票交易最大的挑戰。過往只有付費給彭博社安裝終端機、或者在紐約證交所擁有席位的專業投資人能夠擁有即時的價量資訊，但隨著網路的發達，大多數的使用者都能免費獲得足夠新的價量資訊，有興趣獲得歷史資訊的也可以用有限的代價訂購遠比彭博社便宜的服務，例如標準普爾的Capital IQ。在這種背景下，再加上演算法交易軟硬體成本的大幅下降，讓上市股票交易速度越來越快，價量越來越透明，套利空間則越來越小——大家都有的數據是無法給任何人帶來優勢的。

最後——也是對新創最重要的——並不是所有的數據都是可以轉換成策略執行、進而換成鈔票的。一般消費者最熟悉的大數據應用是谷歌、臉書、LinkedIn和亞馬遜，這四者使用大數據提供更準確的產品和服務給不同的消費者，但前提是這四者都早就超越臨界質量，可以直接從它們大量的使用者身上拔羊毛。大數據的新創大多得把自己的服務架在這些主流服務上，寄望能分一杯羹。問題是這樣的商業模式有嚴重的平台風險（platform risk），而且要說服使用者付費得花上更大的功夫。

這大概也是為什麼截至目前為止，大數據相關新創裡除了「處理大數據」的商用軟體如Tableau和Atlassian以外，很少有其他已經成功的例子。

總結來說，大數據理想國雖然並非遙不可及，但在經過十多年的討論和炒作，我們似乎並沒有離它更近，從川普的當選看起來我們甚至可以說理想國更遠了。對於在乎人性的正常人來說，這提供了一些安慰，證明數據無法取代人。而對於大數據新創來說，在一開始就想清楚自己在價值鏈的位置和對應到的談判籌碼，可能遠比產品的準確度和效率重要也說不定。（相關報導：觀點投書：別再小確幸從大數據看金融整併｜更多文章）

*作者為台灣大學電機畢業，在台灣、矽谷和巴黎從事IC設計超過十年，包含創業四年。在巴黎工作期間於HEC Paris取得MBA 學位，轉進風險投資領域，現為Hardware Club合夥人