吳統雄觀點:藍白協商之民調評估 「統合分析」可獲得較佳結果

2023-11-17 06:50

? 人氣

筆者認為,藍白協商提出以民調評估,作為配合的方案,宜採用「統合分析」方法較佳。(資料照,柯承惠攝)

筆者認為,藍白協商提出以民調評估,作為配合的方案,宜採用「統合分析」方法較佳。(資料照,柯承惠攝)

編者說明:藍白協商提出以民調評估,作為配合的方案。比較不同機構產出的資料,宜採用「統合分析」方法。本刊特邀請對此議題長期研究的吳統雄教授作應用介述。

藍白合政黨協商決議:由3位民調統計專家檢視評估各界公布的民調,及國民黨、民眾黨各提供一份內參民調的結果。雙方同意,若超過統計誤差,由勝者得一點,若在統計誤差範圍內,由侯柯配得一點。

[啟動LINE推播] 每日重大新聞通知

這次決議應該重視的是科學的「評審方法與程序」,將原始「非隨機性/等機率性」調查中因誤解、或人為產生的誤差降到最低,並將各原始資料標準化,形成可以共同比較的資料。只要3位專家均具調查的理論與實務經驗,就不會變成各說各話,而可獲得一致結果。

「統合分析」就是適於綜合評估各家民調,相對客觀的科學方法之一。

集合多家坊間調查,只要沒有故意做假、樣本具備分散性,在候選人之間真實差距很大、且大於作業誤差時,參用「統合分析」仍然有可能觀察出真實趨勢。

主要程序有三:選擇納入「統合分析」的資料、標準化資料、選擇分析方法。

本文將介述實施的各步驟,並在文末說明,必須共同考量的「決策科學」與「人類取用行為」因素。

當然,評估也可以直接將各原始資料總加後平均。這就是本文作者在《風傳媒》的《侯柯郭要願賭服輸─從二階段初選到未來公辦初選》一文中曾經討論過的《願賭服輸》模式,也是決策科學上「較佳模式」之一,民進黨便一直使用這個模式。

而且,採用這個方法,只要請3位工讀生就好,不需要什麼專家。

坊間民調非「隨機/等機率」樣本

為何要採用「統合分析」,必須有一個前提觀念:當前所有坊間民調都不是「隨機/等機率」樣本。

而為何數量很少的1千餘樣本可以推論全臺2千3百多萬人?其第一前提必須是「隨機/等機率」樣本。

坊間電話民調都宣稱:「在年月日至日(通常不超過3日),以年滿20歲設籍在台北市的民眾為母體,採用電腦輔助電話訪問方式進行調查,成功完訪**人,在信賴水準95%下,抽樣誤差最大值為±3.0%。」此敘述一定是不正確的,可稱為「資訊系統綁架困境」。

因為國內幾乎所有民意調查公司都是使用玉瑪系統,預設是兩人競選的狀況,在專業上稱為「二項分配」。即只有在兩人競選下,「『若』完訪1067人,在信賴水準95%下,抽樣誤差最大值為±3.0%。」

但各民調都是在調查「3腳督」「4腳督」,該系統卻不能更改預設,無法使用正確的機率分配推算,所以「抽樣誤差『一定不是』±3.0%。」調查都還有一個「未決定」的選項,就統計上類同於「再加1人競選」,與預設條件誤差更大。

「隨機」不是「隨便」而是「不能隨便」

以上「完訪人數、信賴水準、抽樣誤差」之間的關係,必須在符合「隨機樣本」的前提下才能實現。

「隨機性」一詞常被誤為「隨便」,其實為「等機率性」,有極嚴謹的條件,完全「不能隨便」!

若要符合「隨機性/等機率性」,則被抽出之樣本後,不可改變其機率,亦即抽出樣本後,必須「若且唯若」訪問到全部樣本、沒有更換,相關推論才能成立。

如何獲得「隨機/等機率性」樣本?就是必須要有「完整母群(或稱母體)清冊」,即所有受訪者都在同一個清冊上出現1次,這樣抽出的每個樣本的才有「等機率性」。

各民調所稱「以年滿20歲設籍在台北市的民眾為母體」,而這種母體的實體清冊根本不存在。許多坊間民調公司,以電話簿充當母群清冊,但大家都知道,當前電話簿不登記率太高,並不具隨機性/等機率性。

在符合科學條件的調查可以RDD (Random Digit. Dialing)等方法,實現虛擬母群清冊,以追求解決沒有實體母群清冊的問題。

我所知道的坊間民調公司,沒人真正做RDD,而是將收集到的「市話」和「手機」號碼資料庫中抽出號碼,再做隨機尾數,通常是改變最後2碼為隨機號。

完整的RDD 必須要做「群碼分析」即市話前6碼、手機前8碼與公告釋出的號碼是否配當?配當的程度為何?同時,必須做定時號碼資料庫更新。

不得改變樣本被抽中機率

採用類RDD 的隨機尾數,更不容易找到受訪者,當前實務上2~3天絕對訪問不到抽出的樣本,所以坊間各民調公司在開始時,就抽出11~20倍的樣本予以更換,實際隨機樣本只有5%~9%,故以上推算數字一定不正確。

如果有人被更換,被換者等於出現2次、其被抽中機率變成「原定等機率」的2倍;如果是第20次才更換到,其被抽出機率變成20倍。

所有採用玉瑪系統者,其報告之「抽樣誤差」不僅是錯的,對採用替代樣本,而形成的非隨機/非等機率樣本而言,根本是無意義的。

「統合分析」之選擇納入的資料

採用「統合分析」的首要程序,為選擇納入「統合分析」的資料。再分為:納入哪些民調公司、納入民調公司哪些報告。

納入哪些民調公司的原則有二:沒有故意做假、樣本具備分散性。

坊間無法到達樣本具備隨機/等機率性,但要至少具備分散性,亦即不得發生「整群」號碼都不在資料庫中的情形。

如果民調公司沒有持續增加新樣本、與定時檢查過濾既有樣本,甚或開始建立的來源樣本就有系統性偏差,如來自某個團體的會員樣本,則此資料庫就存在「樣本分散性」低的事實,即使不作假,也會自然產生偏差。

樣本分散性其實有測試機制,但現在要到各民調公司做現場測試,根本來不及。所以本項必須採用「較佳決策」,即知道有此議題,但略過不論。

故「納入哪些民調公司」應是藍白雙方必須優先合議、是唯一宜以政治解決的問題,也是民調專家不必介入的問題。

「3腳督」「4腳督」都應納入

納入民調公司哪些報告?

少數樣本可以推論全體的第二大前提是:達到最適樣本數。

如果是隨機/等機率樣本,200個以上,開始產生推論意義;1500個以上,推論開始穩定;3000個以上,推論效益開始降低。

如果是不隨機/等機率樣本,則除了嚴重偏差樣本外,可盡量大。

所以,各民調公司的「3腳督」「4腳督」都應納入分析。

而各民調公司的網路調查,與純手機調查,均不應納入分析。

網路調查就是傳統函件調查的虛擬化,國內外均有大量研究文獻,證明這種調查嚴重缺乏隨機/等機率性,具備主動偏頗性,適合市場行銷,不宜作為推論與決策性使用。

「手機調查」當前有個迷思,因為NCC 的年度報告,指出手機使用率已超越市話。這個現象可支持要重視運用手機,但不可誤解為要使用純手機調查。

因為決定抽樣正確性的是「母群清冊完整性」,與「使用率」並無關係。前者可大略理解為「可接觸率」,市話仍優於手機,在這情況下如何相輔相成,需要另文解說。

幸而,當前網路上廣為流傳一份數據,即2022 選舉,以混合清冊、或純市話的調查,其報告數字或超過宣稱誤差,但當選人不變;而相同的調查公司,若採用純手機調查,連當選人都弄錯相反了!這是個不需要詳細解說的實務例證。

「統合分析」之資料標準化

如何標準化資料?哪些資料必須標準化?實務上可標準化?

●取得各民調公司的真實資料,而非加權後資料。

●標準化為二項分配形式

●比較標準化百分比

●「誤差」分析的素質改善

當前坊間民調幾乎全部是加權後數字,而非調查真實數字。

因為採用類RDD 的隨機尾數、又不斷更換樣本,會造成樣本的人口資料,和母群產生很大差距。

所以,這些民調公司再用《性別、戶籍、年齡》加權,只有美化數字效果,不能增加推論性,反而有擴大誤差之虞。

加權法美化數字 擴大誤差

「加權法」必須是加權項目,為應變項的因果/關聯自變項。譬如,要預測燒開水所需時間,若我們各式水壺與瓦斯桶樣本不足,但根據已有樣本的「水壺容量」、「耗瓦斯量」加權,則可經加權,正確預測各種燒開水時間。

但如果我們以「水壺廠牌」、「瓦斯桶顏色」加權,則毫無作用,可能反而擴大誤差。

國內外大量選舉研究均指出《性別、戶籍、年齡》和選民的投票傾向並無因果關係,或許特定候選人和某人口變項會有個案的關聯性,但人口變項不是對選舉有預測力的變項。

尤其某種類型樣本特別少,樣本少則誤差大,經過加權後把較少的類型放大,便同時在放大誤差。譬如年輕人較少,因為年輕人對選舉沒興趣,願意花時間回答的年輕人,是具特別色彩的人,也就是真實世界比較少的人,經過加權後反而把這種類型不實加大了。

其實對候選人而言,較佳的也是取得真實資料。如果發現真實資料中哪種類型特別少,就是對這類型的選民瞭解不足,在未來競選中可以適當補救。

真實數字被加權美化後,候選人反而不知道自己尚不瞭解的弱點在哪裏。

如同跨校成績比較必須標準化

●標準化為二項分配形式

各家民調都是在做「測量」,來源不同測量分數總加,並無知識上的意義。

許多父母因為子女升學,逐漸瞭解各校評分方法、文化不同,如果將各校原始成績,拿去做跨校比較,誤差很大,所以已認知成績必須標準化。如願舉一反三,民調之間的比較,也應如是。

標準化的方法很多,其中易於瞭解,也具備許多優點的,就是標準化為侯友宜、柯文哲兩人相加為100% 的「二項分配」形式。可以反映公開支持者的正確比例,使各調查在這個條件上相同,而可以相加比較。也必須要是二項分配才能夠計算通俗認知的「誤差」。

進階補充說明:一般樣本誤差的原始定義必須是「連續資料、常態分配」,但當樣本數很大時,二項分配可准用常態分配的性質與各種計算方法。

百分比標準化以形成相同條件

「統合分析」的接續程序是選擇分析方法。

●比較標準化百分比

對學術研究級的「統合分析」,後續是作「森林圖」或其他多變項分析。但門檻太高,對雙方陣營的支持者,都會產生焦慮感。

所以,可以直接作標準化百分比總加比較,這是個穩定的統計值,術語稱為「不偏」,大眾也易於瞭解接受。

雖然,總調查案數可能偏少,但還是可以准用統計上的檢定法則。

誤差可多方面改善

●「誤差」分析的素質改善

協議中有一點為:「若超過統計誤差,由勝者得一點;若在統計誤差範圍內,由侯柯配得一點。」

其中「誤差」一詞,正是本文開宗明義所提醒:坊間民調的誤差一定是不正確的,是「資訊系統綁架困境」所造成的誤解,還經過「加權」等多重誤導。

樣本「變異數」愈大,則「誤差」愈大,坊間民調受系統限制,主觀將「變異數」固定為最大值的.25。而標準化後,「變異數」一定會小於.25。

在標準化百分比的二項分配下,可以獲得各案比較正確的誤差,在「真實與數據素質」上是必然的「改善」。

期望3位專家中至少有一位採用「統合分析」,或其他科學程序。如果3位願意共同採用相同科學程序,也會獲致相同的結果。

各級學校也是經由多年的宣導,大家才認識「標準分數」的重要性。期望本次協商作業,不僅能夠促成政黨合作,也對公民開始作科學民調的教育。

決策科學對「希巴啦模式」的抉擇

本文對本案如何實施「統合分析」的介述,也加入了「決策科學」與「人類取用行為」因素的考量。

決策科學是當能力上無法達成「最佳模式」時,為避免在十字路口停滯不前,而改採用「較佳模式」。即理智上知道方案並不完美、仍然存在問題,但依可行性而繼續向前走。

譬如當前坊間民調只是樣本『戶』」,在戶中如何找到「適當受訪『者』」還有許多技術。同時,當前都會區,「家庭投票異質化」已超過3成,所以坊間民調,當前1家只訪問1人,一定也擴大誤差。還有市話和手機的配比…等等。

要達成隨機/等機率樣本,與其他近200項配套事項,須要8周以上,坊間民調完全無法達成,「統合分析」也不能補救。

這2位候選人都很優秀,我們其實是在用「希巴啦」(擲骰子)決定候選人,并不能反映他們真正存在高下,但「統合分析」可以將人爲灌在骰子裡的不當鉛塊盡量剔除

人類「認知內容」相反 「認知方法」仍相同

我做過很多次「太陽地球轉」實驗,以證明「人類取用行為」。

我問聽眾:請問,是太陽繞地球轉?還是地球繞太陽轉?

大家都答:是地球繞太陽轉。

我再問:伽利略以前,大家都認為是太陽繞地球轉。請問,伽利略是如何證明地球繞太陽轉的?或者你自己可以提出一個實驗,證明是地球繞太陽轉?

幾乎罕有人回答。

「人類取用行為」就是我們的「認知內容」和伽利略時代的人類相反,但我們的「認知方法」和伽利略時代的人類還是相同:「社會相信」多於「理性抉擇」,亦即相信:名人說、網路說、大家說…而較少自己收集、分析、比較相關資訊而取得答案。

我們知道,提出與「社會相信」不同的建言,必須循序漸進。

我們也建議,不宜只跟隨「大家都這樣說」,而應多思考足以證明地球繞太陽轉的實驗是什麼?少數樣本可以推論全體的理由是什麼?

*作者為臺灣選舉民調首創者、世新大學前資管系主任

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章