汪葛雷觀點：黃珊珊大數據報告看好，背後支撐的是「正確數據」嗎？ | 汪葛雷

關於民調，其可信度一直受到質疑，經過長年的選舉洗禮，臺灣民眾也日益體認到民調需要「揀選」，少數幾家有定期出民調，且與選舉結果較吻合的民調機構才值得信賴，今年坊間也出現「臺灣民調透明百科計畫」評鑑各家民調的質量。

然而，民眾對民調可能變「民調（ㄊㄧㄠˊ）」，被扭曲成文章已有警覺，然而對於大數據，民眾卻是不那麼懂的，成為另外一個漏洞，能作一些引導輿論的操作。

舉例說明，近日有篇文「陳時中聲量高峰」，裡面提到以下兩段文字：

透過…….資料庫觀察三位主要候選人近一個月的網路聲量走勢，其中陳時中近一個月來聲量最高，將近68萬則，蔣萬安的聲量18萬則，黃珊珊13萬則…….選戰也已經越來越熱，蔣萬安每日平均聲量約為6756，黃珊珊則為6325，黃珊珊幾乎是翻倍成長，每日聲量已與蔣萬安的差距已縮小到431，黃珊珊聲量能否「超蔣趕陳」值得期待。
從目前的結果來看，黃珊珊的選戰策略獲得較佳的網路好感度，以0.56的好感度領先陳時中的0.37、蔣萬安的0.38。陳時中……正面聲量比例較低，只有5%；蔣萬安則是積極「固本」，重撿「疫苗採購黑箱」與「民進黨擋疫苗」等老題目攻擊陳時中，嘗試增加陳時中的仇恨值，但也容易激起對立，導致自己目前的負面聲量為16%，居三人之冠。

這個說法，很明顯是有利於黃珊珊的論述。當然，如果黃珊珊真的聲勢看漲，作為論述者，點出來可不可以？當然可以。但依筆者看．這篇分析至少有二大問題：

1.各家公司網路聲量統計方式皆不透明，難建立絕對權威性

大數據在選舉空戰的時代，確實是很重要，但其鑑定成果一直是黑箱。比方同樣是大數據平台，有些平台陳時中30日聲量隨便都破百萬筆，而「陳時中聲量高峰」一文引述的輿情資料庫，近日的一份報告（量測時間：2022/08/08至09/07)，陳時中聲量僅68萬筆，差距甚大。各家公司技術有異，不可能「窮舉」各種網路上的輿論，資料搜集的範圍更被視為商業機密，自然也很難公開一個能讓所有人信服的資料來源清單，更別談誰在聲量上能「超越」對手，能參考的恐怕只有同一個榜單上，各位參選人「漲跌的趨勢」。要真正找出一個準確的數字，是不太可能的。

2.網路好感度僅能參考，過度分析無太大意義

這件事情直白的說，過去數個月，哪位政治人物的聲量比林智堅高？但這聲量對林智堅有什麼幫助嗎？沒有，過街老鼠人人喊打是一種高聲量，但絕對沒有政治人物要這種聲量，大家追求的是正面評價。因應於此，許多輿情分析報告裡面都有談到網路好感度，通常是拿機器檢視後的正面聲量，除以負面聲量，比值越高表示好感度越高。

問題就來了，機器終究不比人腦聰明，大家都知道中文有一些複雜的語法，以『我們中出了叛徒』為例，機器到底判讀成『我們中間出了叛徒』的意思，還是判別成『我們「中出」了叛徒』，這就是個未知。

能將一句話正確的拆分都有難度，更遑論判斷一段文字是正面或負面。據筆者熟悉技術的朋友表示，只要一句話出現某人+負面字眼，就可能得出負面的結論，舉例來說，「蔣萬安抨擊陳時中疫苗採購黑箱」，那麼在機器的角度，蔣萬安與陳時中都可能被記上一筆「負面」聲量，但實際上在人工客觀判讀上，這應該僅是陳時中的負面聲量，而不是蔣萬安的，但系統難以給予正確判別。

也就是說，網路好感度僅是一個參考指標，「陳時中聲量高峰」一文斬釘截鐵說蔣萬安負面聲量居三人之冠，未免過於武斷。

退一步說，假定該文的「好感度」與「聲量」都可信。蔣萬安聲量18萬筆，負面聲量佔16%(近3萬筆)，陳時中68萬筆聲量中，14%的負面聲量（9萬多筆），卻成了負面聲量之冠？未免有些牽強。

筆者不願惡意揣摩「陳時中聲量高峰」一文的動機，與該文引述之快析輿情資料庫的可靠性。但一篇文導出對黃珊珊絕對有利的結論，一般民眾卻未必有足夠背景知識，知道大數據分析的侷限性，如此將得到不夠客觀的認知。還是應該正本清源，讓大家了解大數據的侷限性，唯有大眾了解到世界上並不存在「真正完全正確的大數據判讀」，大數據研究才不致於淪為「類文宣」般的操作。（相關報導：夏珍專欄：陳時中激戰柯文哲，黃珊珊讓三子蔣萬安還討不到便宜｜更多文章）

＊作者為網路媒體工作者，本文原刊《奔騰思潮》，授權轉載。