汪葛雷觀點：黃珊珊大數據報告看好，背後支撐的是「正確數據」嗎？-風傳媒

汪葛雷觀點：黃珊珊大數據報告看好，背後支撐的是「正確數據」嗎？

問題就來了，機器終究不比人腦聰明，大家都知道中文有一些複雜的語法，以『我們中出了叛徒』為例，機器到底判讀成『我們中間出了叛徒』的意思，還是判別成『我們「中出」了叛徒』，這就是個未知。

能將一句話正確的拆分都有難度，更遑論判斷一段文字是正面或負面。據筆者熟悉技術的朋友表示，只要一句話出現某人+負面字眼，就可能得出負面的結論，舉例來說，「蔣萬安抨擊陳時中疫苗採購黑箱」，那麼在機器的角度，蔣萬安與陳時中都可能被記上一筆「負面」聲量，但實際上在人工客觀判讀上，這應該僅是陳時中的負面聲量，而不是蔣萬安的，但系統難以給予正確判別。

也就是說，網路好感度僅是一個參考指標，「陳時中聲量高峰」一文斬釘截鐵說蔣萬安負面聲量居三人之冠，未免過於武斷。

退一步說，假定該文的「好感度」與「聲量」都可信。蔣萬安聲量18萬筆，負面聲量佔16%(近3萬筆)，陳時中68萬筆聲量中，14%的負面聲量（9萬多筆），卻成了負面聲量之冠？未免有些牽強。

筆者不願惡意揣摩「陳時中聲量高峰」一文的動機，與該文引述之快析輿情資料庫的可靠性。但一篇文導出對黃珊珊絕對有利的結論，一般民眾卻未必有足夠背景知識，知道大數據分析的侷限性，如此將得到不夠客觀的認知。還是應該正本清源，讓大家了解大數據的侷限性，唯有大眾了解到世界上並不存在「真正完全正確的大數據判讀」，大數據研究才不致於淪為「類文宣」般的操作。

＊作者為網路媒體工作者，本文原刊《奔騰思潮》，授權轉載。

1 2 全文閱讀

汪葛雷觀點：黃珊珊大數據報告看好，背後支撐的是「正確數據」嗎？

夏珍專欄：陳時中激戰柯文哲，黃珊珊讓三子蔣萬安還討不到便宜

嚴震生觀點：陳時中兩項可疑的徇私行為

風評：柯文哲和陳時中的「抗中保台」新解

石之瑜觀點：如果根本是個假人，競選人設要怎麼真？

公孫策專欄：五府千歲與門神，你選誰？

風評：政府阻擋BNT疫苗，真的不是「秘辛」