天天看點

《統計會犯錯——如何避免資料分析中的統計陷阱》一一2.1 功效曲線

本節書摘來自異步社群出版社《統計會犯錯——如何避免資料分析中的統計陷阱》一書中的第2章,第2.1節,作者:【美】alex reinhart(亞曆克斯·萊因哈特),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

設想我的對手有一枚不均勻的硬币。擲出這枚硬币,正面向上或反面向上的機率并不是1/2,相反,其中有一面向上的機率為60%。我和我的對手用這枚硬币賭博,他宣稱這枚硬币是公平的,但是我對此強烈懷疑,我應該用什麼方法來證明他在欺騙我呢?

我不能簡單地連續投擲這枚硬币100次,然後以正面向上次數是否為50次來判斷硬币是不是均勻的。事實上,即使是一枚均勻的硬币,也不可能恰恰是50次正面向上。正面向上次數的機率分布如圖2-1所示。

圖2-1 硬币正面向上次數的機率曲線

(擲一枚均勻硬币(實線)或者不均勻硬币(虛線)100次,正面向上次數的機率曲線,其中不均勻硬币正面向上機率為60%。)

對于一枚均勻硬币,正面向上50次是最可能的結果,但其發生的機率也小于10%,另外有略小的機率得到51次或52次正面向上的結果。事實上,當連續擲一枚硬币100次,正面向上次數落在[40,60]區間内的機率為95%。換句話說,在這個區間之外的可能性較低:隻有1%的機率得到正面向上多于63次或少于37次的結果。正面向上90次或100次幾乎是不可能的。

一枚不均勻的硬币,其正面向上的機率為60%。連續擲這枚硬币100次,所得正面向上次數的機率分布如圖2-1中的虛線所示。均勻硬币的機率分布曲線和不均勻硬币的機率分布的曲線有重合的部分,但是不均勻硬币與均勻硬币相比,更有可能得到正面向上70次的結果。

我們做一點數學計算。連續投擲一枚硬币100次,然後數出正面向上的次數。如果這個次數不是50次,那麼在這枚硬币是均勻硬币的假設下,計算産生該結果或者更為極端結果的機率,這個機率就是p值。如果這個p值等于或小于0.05,我們就在統計上顯著地認為這枚硬币是不均勻的。

利用p值的方法,我們有多大的可能性發現一枚硬币是不均勻的?圖2-2所示的功效曲線回答了這個問題。在圖2-2中,橫軸表示硬币正面向上的機率,表示硬币不均勻的程度,而縱軸是利用計算p值的方法,得到這枚硬币不均勻結論的機率。

圖2-2 功效曲線

(連續投擲硬币100次或1000次兩種情況下,假設檢驗的功效。垂直的線表示一枚正面向上真實機率為60%的非均勻硬币在這兩種情形下的檢驗功效。)

假設檢驗的功效是指産生統計顯著性結果(p <0.05)的機率。對于一枚均勻的硬币,40~60次正面向上的機率為95%,是以對一枚不均勻的硬币而言,檢驗功效就是指這枚硬币正面向上的次數落在區間(40,60)以外的機率。有3種因素可以影響檢驗的功效。

偏差大小。一枚硬币越不均勻,越容易被檢測出來。

樣本容量。如果收集足夠多的樣本,那麼即使是細微的偏差也可以檢測出來。

測量誤差。在上面的例子中,你能非常容易地數出正面向上的次數,但有一些試驗的名額測量非常困難,如醫學研究中的疲勞感和沮喪感。

我們首先讨論偏差大小對檢驗功效的影響。如圖2-2所示,如果一枚硬币輕微有偏,其正面向上的機率不是1/2而是60%,那麼在連續投擲100次後,通過假設檢驗的方法得到這枚硬币是非均勻硬币結論的機率為50%,也即是說,檢驗功效為50%。我們有一半的機會,得到正面向上次數少于60次的結果,進而不能判斷這枚硬币是非均勻硬币。這表明,僅僅依靠100次投擲資料,并不能把硬币的輕微偏倚與随機誤差分割開來。隻有當這枚硬币嚴重有偏,比如正面向上的機率為80%時,我們才能得到其為非均勻硬币的結論,此時檢驗功效為100%。

這裡就有一個問題,即使一枚硬币是均勻的,我們仍有5%的機率得到該枚硬币不均勻的結論。我們的檢驗把p <0.05作為硬币不均勻的證據,但一枚均勻的硬币也可能得到p <0.05的結果。

幸運的是,增加樣本容量可以提高檢驗功效。圖2-2中的虛線說明,如果連續投擲硬币1000次,那麼利用假設檢驗方法很容易識别出硬币是否均勻,此時檢驗功效明顯高于投擲硬币100次時的情形。這是因為,如果連續投擲一枚均勻硬币1000次,正面向上次數位于(469,531)區間内的機率為95%,而正面向上超過600次可能性很低,一旦出現該結果就認為這枚硬币是非均勻的,一枚正面向上機率為60%的非均勻硬币卻很可能得到超過600次的結果,是以也就比較容易檢測出來。但不幸的是,我們沒有時間連續投擲一枚硬币1000次。是以,出于實際考慮,單純靠增加樣本容量來提高檢驗功效是不現實的。

數出正面向上或者反面向上的次數比較容易,但對其他名額測量就沒那麼簡單了,比如智商。由于問題不同或被測人的心情波動,每次測試的分數會發生變化,進而為智商測量添加了随機噪聲因素,使測試分數不能真實反映真正的智商。如果你比較兩組受試人員的智商分數,你會發現不僅不同受試者的分數具有正态變異,即使對同一名測試者,測試分數也會随機波動。如果一個測試帶有較大的誤差,那麼統計檢驗的功效也會降低。

資料越多,我們越容易從噪聲中區分出信号。但說起來容易做起來難,科學家沒有足夠的資源開展具有高功效的科學研究,來檢測他們要找的信号,是以在開展研究之前他們就注定會失敗。

繼續閱讀