林建甫專欄:大數據的現代性

2022-02-04 06:50

? 人氣

作者指出,大數據本身不重要,而是要對其做出解釋,並轉換成商業價值。(取自Pixabay)

作者指出,大數據本身不重要,而是要對其做出解釋,並轉換成商業價值。(取自Pixabay)

由於科技進步,紀錄、蒐集、儲存、分析都越來越方便的情況下,大數據在我們經濟社會中已經扮演越來越重要的角色。去年(2021)5月《獨角獸創業勝經》(Super Founders: What Data Reveals About Billion-Dollar Startups)一書以大數據探究全球最成功的新創公司,顛覆創業相關的成見,如創辦人年齡、學歷、職涯背景等迷思,提出成功創業的真實面向。大數據是當今經濟社會不可或缺的探討方向。

[啟動LINE推播] 每日重大新聞通知

經濟生產要素

現在的教科書普遍認為經濟生產4要素(four factors of production),是勞動、資本、土地、和企業家精神(組織)。透過對這些要素的安排與使用投入,經濟社會才能進行生產活動。而分配理論就是討論這4要素的報償,分別透過各生產要素的供需來決定均衡價格,依序就是工資、利息、地租、和利潤。

然而現代社會,大數據應該可以成為第5個生產要素。因為大數據與其他4個生產要素大大不同。應該要加上這項要素,才能具現代意義。透過大數據的分析,企業可以知道消費者的偏好、趨勢,因此可以精準生產;而透過消費者的資料分析,才可以知道銷售的對象在哪裡,因此可以精準的行銷;商業活動就可以更加地有效率。當然大數據既然是生產要素,其報償就應該獨立出來。我們姑且稱其為:「數據報酬」,不應該與工資、利息、地租、和利潤,混在一起。

房地產、交易。(圖/取自Pixabay)
作者指出,大數據應被列為經濟生產第5個要素。(取自Pixabay)

過去數據:數字

過去人類能蒐集到的資訊非常有限。而且最早的數據應該就是數字。然而數字的由來是按時帳序紀錄的日記帳,或流水帳,用現代的眼光來看,其功能相當有限。今日的會計學是建立在借貸平衡觀念上,也就是基礎就是複式簿記記賬,每筆分錄需要左右借貸各記一筆,再整理分類帳,核對、結賬、做總帳,編制報表,做成公開的財務資訊。這可以解決過去日記賬最後彙整經常就是糊塗帳的問題。

今日數據:各項紀錄

近日除了數字,各式的對話、照片、影像都是可分析的數據。單以數字而言到處是垂手可得的資料,有時間數列(time series)、橫斷面(cross section)資料、縱橫(panel data)資料,這都大大的促進經濟計量學(Econometrics)的發展。而資本市場即時的交易高頻(high frequency)資料,不論是資料量或是資料特性都與傳統資料有很大差異,也促成程式交易的興起。

當今全世界的交通工具、工廠設備、農業場域、辦公居家環境都有著無數的偵測傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度、電壓,乃至空氣中化學物質的濃度變化,產生海量的數據信息。而非數字的照片、影像也因蒐集、儲存、分析的進步,如雨後春筍的蓬勃發生。隨著感知技術、無線射頻辨識(RFID)技術,遙測技術、坐標定位技術,社群網絡⋯⋯,逐漸將世界的變化都數據化。一句有趣的話將歷史與現在做了對比:「人類以前延續的是文明,現在傳遞的是信息數據。」

大數據分析需要AI

因為大數據的龐大資料量、複雜程度以及非結構化,傳統資料處理軟體或系統難以去應對並管理大數據資料。人工智慧(AI)從早期的程式是用一系列的指令來規範計算機的運算。後來機器學習是著重於訓練電腦從資料中學習,並根據經驗改進,而不是按照明確的程式碼運行作業。機器學習會從經驗中學習、配合新的輸入訊息做調整,訓練演算法尋找大型資料集的模式和關聯性,並執行仿人類的工作並根據該分析做出最佳決策和預測。

晚近發展的深度學習(Deep Learning)利用多層次的人工神經網路解析大量數據,已被應用在電腦視覺、語音辨識、自然語言處理、音訊辨識與生物資訊學等領域並取得了極好的效果。

人腦真的會被人工智慧打敗嗎?(圖/取自總統府@flickr)
人工智慧會從經驗中學習、配合新的輸入訊息做調整,訓練演算法尋找大型資料集的模式和關聯性。(取自總統府@flickr)

大數據還是需要統計

由於大數據,樣本就是母體。研究不需要再進行抽樣就得到數據,而且是全體數據。因此不少人認為只需要計算就可以下結論了,複雜的統計學方法可以不再需要了。但這是錯誤的。

因為環境、人的行為在不斷地變化,萬物的發展充滿了不確定性。統計的2大主軸:歸納與推理,仍然幫我們在不確定的情況下對資料進行最好的分析。現在資料雖然已經是母體,但樣本統計量的計算來說明母體參數仍是必要的過程。這包括大數法則及中央極限定理。大數法則讓我們得到母體參數的一致性,中央極限定理則得到母體參數的常態分配。

另外有人認為在母體只須尋找關聯性,這也是錯誤的。因為統計分析的迴歸,尋找可能的解釋變數,及探討因果關係的種種設計,例如格蘭哲因果(Granger causality)仍然相當有用。至於對未來的預測及預測的判定仍然需沿用統計的理論來進行。

結論:價值與陷阱

大數據發展至今,幾乎已經成為一門顯學。報章雜誌、新聞媒體,隨時都有大數據的新聞或應用,其熱門程度可見一斑。大數據本身不重要,大數據只提供數據,如果不能對其解釋,轉換成商業價值,那還是垃圾。最後大數據帶來無數的機遇,但是與此同時個人或機構的隱私權也極有可能受到衝擊。這是取得跟分析大數據時必須要小心的陷阱。

*作者為中信金融管理學院講座教授、台大經濟系名譽教授

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章