統計學基礎（3）假設檢驗

什麼是假設檢驗

假設檢驗是數理統計中研究的一類基本問題，它是利用從總體抽樣得到的資訊即樣本，來檢驗對總體的某種假設的正确性，進而做出接受或拒絕的決定。

假設檢驗是推斷統計的最後一步，是依據一定的假設條件由樣本推斷中體的一種方法。

假設檢驗的基本思想

假設檢驗的基本思想是小機率反證法思想，小機率思想認為小機率事件再一次試驗中基本不可能發生。根據這種思想，首先，我們需要對總體作出一個假設，即原假設H0，這個假設大機率會成立；然後開始作試驗，試驗結果和原假設相背離，也就是小機率事件發生了，那麼我們需要根據原假設成立的機率大小來判定是否拒絕該假設。

小機率思想

小機率思想是指小機率事件（p<0.01 或p<0.05）在一次試驗中基本上不會發生。

反證法思想

反證法思想是先提出假設（檢驗假設H0),再用适當的統計方法确定假設成立的可能性大小，如果可能性小于指定的P值，則認為假設不成立，如果可能性大于指定P值，則認為原假設不成立。

顯著性檢驗

顯著性檢驗是事先對總體（随機變量）的參數或總體分布形式做出一個假設，然後利用樣本資訊來判斷這個假設（備擇假設）是否合理，即判斷總體的真實情況與原假設是否由顯著性差異。

假設檢驗的基本步驟

1. 提出原假設H0和備擇假設H1; —指出所作檢驗是雙尾檢驗還是單尾檢驗

2. 構造檢驗統計量（T檢驗還是Z檢驗）,收集樣本資料，計算檢驗統計量的樣本觀察值；

3. 根據所提出的顯著水準p，确定臨界值和拒絕域。

4. 計算檢驗統計量的值。

5. 做出檢驗決策。

注意兩類錯誤：第一類錯誤和第二類錯誤。

下面請參考案例。來源:https://blog.csdn.net/wydyd110/article/details/82387653

假設檢驗簡單來說，就是下面4步的推理邏輯：

統計學基礎（3）假設檢驗

為了你更容易了解，我還是從一個生活中的例子開始聊起。

這個例子裡舉王寶強和馬蓉的例子并沒有惡意，隻是想說明假設檢驗的背後邏輯，而這個例子更容易讓你了解清楚。

有一天，寶強懷疑妻子有可能出軌，但是自己邏輯能力太弱，于是就請了我這個偵探來幫他破案。

于是，我就拿出了自己的殺手锏武器，也就是破案的套路：假設檢驗。

第1步，我需要明确問題是什麼。

問題：寶強要檢驗馬蓉是否出軌

根據這個問題我提出來下面兩個互為相反的假設。

零假設：馬蓉沒有出軌

備選假設：馬蓉出軌了

統計學基礎（3）假設檢驗

為什麼要提出兩個假設呢？

因為從邏輯學來看，如果我們能夠證明某個零假設不成立，那麼其對立假設（也就是備選假設）肯定為真。

零假設和對立假設在邏輯方面是互補的，也就是說，如果其中一個假設為真，則另一個假設為假；如果我們推翻了其中一個假設，那就必須承認另一個假設。

對應這個例子裡，如果我能找到足夠強的證據來否定零假設（也就是馬蓉沒有出軌），那麼我就能有效的說明零假設不成立，那麼備選假設成立。

好了，接下來的問題就是：如何找到證據了。下面圖檔我們看下第2步

第2步：證據是什麼？

根據中心極限定理，我們知道，合理足夠多的樣本可以代表總體。是以我要找到馬蓉合理的樣本資料來做證據。

接下來，我随機調查了馬蓉這幾年的樣本資料，包括上網，開房，财務等。

根據這些樣本資料顯示出來的證據，我利用自己的統計機率知識，計算出了，在零假設成立的前提下，馬蓉沒有出軌的機率。

統計學基礎（3）假設檢驗

不算不知道，一算吓一跳。在零假設成立的前提下，樣本資料計算出馬蓉沒有出軌的機率是0.01%

這個機率值在統計機率中有個專門的術語叫p值。也就是，在零假設成立的前提下，得到樣本觀察結果出現的機率。

在這裡p值就是在零假設成立的前提下（馬蓉沒有出軌），用樣本證據計算出的馬蓉沒有出軌的機率，p=0.01%

現在我們來看第3步：判斷标準是什麼

我不能說有了證據就立馬說明人家馬蓉出軌，錯誤的判斷會造成寶強家庭的毀滅性破壞。

是以，提前制定好一個定罪的标準，有助于我能做到：絕不能冤枉一個好人，但也不可放過一個壞人。

因為我定的零假設是：馬蓉沒有出軌。是以這裡定的标準是，如果馬蓉沒有出軌的機率<=5%，那麼就直接否定了零假設，也就是馬蓉沒有出軌不成立。

這裡比較拗口，馬蓉沒有出軌的機率<=5%，反面就是馬蓉出軌的機率大于95%，是以馬蓉有很大機率出軌，是以把零假設：馬蓉沒有出軌否定了。

這裡用于做出決策的标準5%，在假設檢驗裡叫做“顯著水準”，用符号α：Significance Level (Alpha)表示，是一個機率值。

統計學基礎（3）假設檢驗

第4步：做出結論

那麼，馬蓉到底有沒有出軌呢？

我們将樣本證據計算出的p值與判斷标準α比較下就可以了：

如果p< =α，那麼拒絕零假設，也就是備選假設成立。

如果p>α，那麼零假設成立

這代表什麼意思呢？

α是判斷标準，也就是小于這個值就表示零假設不成立。

p值在零假設成立前提下，用樣本證據得出的機率，在這裡表示有樣本證據得出馬蓉沒有出軌的機率。

通過比較這兩個值，我們發現：p遠遠小于α。

馬蓉小姐姐，樣本證據對你大大不利啊。本想零假設證明你沒有出軌的，但是樣本資料給出的證據，也就是你沒有出軌的機率隻有0.01%，這個機率遠遠小于判斷标準5%

是以，我可以大膽的拒絕零假設。

回到我們一開始提出的假設：如果零假設不成立，那麼預備假設成立。

現在樣本資料顯示零假設不成立，是以預備假設成立，也就是馬蓉出軌了。

我将這個毫無破綻的推理過程告訴寶強後，寶強順藤摸瓜發現名下财産也被馬蓉卷跑。最後再考慮各種解決方法後，選擇了求助于法律手段。并在微網誌上公布了這件事情，求助于輿論的壓力。

統計學基礎（3）假設檢驗

福爾摩斯說：一旦排除所有的不可能，剩下的不管多麼難以置信，一定就是真相。

在唐人街探案中，劉昊然和王寶強破案時，也引用了這句話：

統計學基礎（3）假設檢驗

總結

最後，我們總結下假設檢驗的邏輯套路，你就更清楚了。

統計學基礎（3）假設檢驗

第1步：問題是什麼？

确定你要研究的問題是什麼。

根據這個問題我提出來下面兩個互為相反的假設。

零假設：馬蓉沒有出軌

備選假設：馬蓉出軌了

第2步：證據是什麼？

在零假設成立的前提下，我們認為手頭已有的資料是從零假設為真的總體中随機抽樣得到的一個樣本，但是這個可能性是多少？是以我們需要計算出這個機率，就是p值。

在例子中就，我們得出的證據顯示，馬蓉沒有出軌的機率p=0.01%

第3步：判斷标準是什麼？

需要建立判斷标準來檢驗證據是否有效。

假設檢驗常用的判斷标準是與0.1%，1%，5%，在假設檢驗裡叫做“顯著水準”，用符号α，

它是一個機率值，用于表示不可能發生和可能發生的臨界值。

第4步：做出結論

根據你找到證據，和自己的标準，你做出了正确的結論。這是一種使用資料和機率來做決策的過程。

我們将樣本證據計算出的p值與判斷标準α比較下就可以了：

如果p< =α，那麼零假設不成立，也就是預備假設成立。

也就是如果得到樣本平均值的機率p值小于顯著水準（5%或者1%或者0.1%），那麼通常被視為不太可能發生，拒絕零假設。

在前面的例子中，p值是指在零假設成立前提下，用樣本證據得出的機率，在這裡表示有樣本證據得出馬蓉沒有出軌的機率。

如果p>α，那麼零假設成立

通過比較這兩個值，我們發現：p遠遠小于α。

進而證明零假設不成立，備選假設成立，也就是馬蓉出軌了。

假設檢驗這個過程，雖然套上了統計機率的外衣，但是說白了，底層思想其實很簡單，就是：一種邏輯推理的套路。

這個邏輯推理，其實我們每天都在用。我們平常說某個人心思細膩，邏輯嚴謹。其實你也可以做到，那就是掌握今天的邏輯推理套路：假設檢驗。