觀點投書:從民進黨初選民調談抽樣誤差

2019年06月19日 05:30 風傳媒
民進黨總統初選民調前,總統蔡英文與前行政院長賴清德代表到黨中央查驗母體抽樣程式,黨主席卓榮泰和秘書長羅文嘉也在現場。(取自卓榮泰臉書)

民進黨總統初選民調前,總統蔡英文與前行政院長賴清德代表到黨中央查驗母體抽樣程式,黨主席卓榮泰和秘書長羅文嘉也在現場。(取自卓榮泰臉書)

這次民進黨的初選產生很多疑慮。五家民調的結果相當接近。一般討論都是是用抽樣誤差來解釋。我覺得一般民眾對於抽樣誤差的觀念不很了解,引發許多不太正確的論述。

先對統計抽樣的觀念做一個介紹。 統計論斷是從樣本推論母體 (statistical inference is an inductive inference from sample to population)。最容易的暸解的是甕模式(urn model)。假設一個甕裏有一定數量的白球跟黑球。若取出一些樣本,從樣本中計算白黑球的比例,我們就可以差測母體中白黑球的比例。當然樣本取得愈多,樣本比例就會愈接近母體比例,其中的差別這就是抽樣誤差(sampling error)。這種抽樣是簡單隨機抽樣(simple random sampling)。

但在實際統計的應用,這模式是有限制的。譬如民調,若把選民支持的侯選人當做不同的顏色球。在不同的區域裏就會有不同比例的顏色球。若是這比例差很多,簡單隨機抽樣就會產生很大的誤差。比較正確的模式是把每個區域當做一個甕,然後按照區域的大小做比例性的抽樣。台灣應該分多少區域去做民調較為準確,這要實際做民調的專家,從經驗累積才能判斷。因為他們比較清楚區域性的選民傾向,但是手機沒有區域性的登記,這也是手機民調被被批評的原因之一。

一般抽樣誤差的計算是按照簡單隨機抽樣的公式去計算。在多甕的模式,誤差會比這公式還大。每家民調公司作三仟份的樣本,在一千九百萬的選民是佔很小的比例。若沒有做完善的抽樣設計(sampling design),實際誤差會比抽樣誤差更大的多。這樣一來五家民調結果的相似度,似乎超出一般抽樣誤差的計算所能解釋的。

*作者為旅美統計博士

加入Line好友

【我要發風】

風傳媒歡迎各界分享發聲,來稿請寄至 opinion@stormmediagroup.com,並請附上姓名、聯絡方式、自我簡介,謝謝!

我想再看到這個主題