資源 | 一文學會統計學中的顯著性概念

這年頭，你不會點兒統計學，你都不好意思出去闖蕩江湖。

α值、P值、假設檢驗這都是些啥？一個小案例帶你了解的透透的。

假設你是一所大學的院長，你收到一份相關報告顯示你的學生每晚平均睡眠時間為6.80小時，而全國大學學生的平均睡眠時間為7.02小時。

此時，學生會主席出于對學生健康的考慮，宣稱這項研究的結果證明了減少家庭作業是必須的。另一方面，校長認為這項研究是無稽之談：“在過去，我們能夠每晚睡4個小時就很好了。”

但是，你必須決定這是否應該引起重視，這個問題就可以使用統計學的知識來解決。

我們經常聽到統計顯著性，但其實并沒有真正了解其含義。如果有人聲稱資料可以證明他們的觀點，我們往往會不假思索的接受，因為我們預設統計分析員經過了一系列複雜的資料分析後得出了不可置疑的結果。

事實上，統計顯著性并不複雜，也不需要經過多年的學習才能掌握，它是非常直截了當的思路，每個人都可以并且應該了解。與大多數技術概念一樣，統計顯著性建立在一些簡單的概念基礎上：假設檢驗，正态分布和p值。本文将闡述這些概念，并逐漸解決上述例子中的問題。

假設檢驗

我們要讨論的第一個概念是假設檢驗(hypothesis testing)，這是一種使用資料評估理論的方法。“假設”是指研究人員在進行研究之前對情況的初始信念。這個初始信念被稱為備擇假設(alternative hypothesis)，而相反的被稱為零假設(null hypothesis)（也叫原假設）。具體到例子中就是：

備擇假設：本校學生的平均睡眠時間低于大學生的全國平均水準。

零假設：本校學生的平均睡眠事件不低于大學生的全國平均水準。

需要注意的是，我們必須要謹慎用語：因為我們要檢驗一個非常具體的效應，是以需要在假設中規範用語，才能在事後說明我們确實驗證了假設而非其他。

假設檢驗是統計學的基礎之一，用于評估大多數研究的結果。适用範圍覆寫了從評估藥物有效性的醫學試驗到評估運動計劃的觀察性研究等各種研究。

這些研究的共同點是，他們關注兩組之間或樣本與整體之間進行比較。例如，在醫學中，我們可以比較服用兩種不同藥物的群體之間得以恢複的平均時間。而在我們的問題中，需要比較本校學生和本國所有大學生之間的睡眠時間。

有了假設檢驗，我們就可以使用證據來決定是零假設還是備擇假設。假設檢驗有很多種，這裡我們将使用z檢驗。但是，在我們開始測試資料之前，還需要解釋另外兩個更重要的概念。

正态分布

第二個概念是正态分布（normal distribution），也稱為高斯（Gaussian）或鐘形曲線（Bell curve）。正态分布是利用平均數和标準差來定義的資料分布形态，其中平均數用希臘字母μ (mu)表示，決定了分布的位置，标準差用σ (sigma)表示，決定了分布的幅度。

正态分布，平均數μ和标準差σ

正态分布的應用原理是根據标準差來評估觀測值。我們可以根據與平均值的标準偏差數來确定觀測值的異常程度。正态分布具有以下屬性：

● 68％的資料與平均值相差±1标準差

● 95％的資料與平均值相差±2标準差

● 99.7％的資料與平均值相差±3個标準差

如果我們統計量呈正态分布，我們就可以根據與均值的标準偏差來表征任意觀測點。例如，美國女性的平均身高是65英寸（5英尺5英寸），标準差為4英寸。如果我們新認識了73英寸高的女性，那麼我們可以說她比平均身高高出兩個标準差，屬于2.5%的最高身高的女性（其中有2.5％的女性要矮于μ-2σ（57英寸），2.5％要高于μ+2σ）。

在統計學中，我們不直接說我們的資料與平均值相差兩個标準差，而是用z分數來評估，z分數表示觀測值與平均值之間的标準差的數量。我們需要利用公式将資料轉化為z分數：觀測值減去平均值，除以标準差（見下圖）。在身高的示例中，我們可以得到朋友的身高的z分數為2。如果我們對所有觀測值進行z分數轉化，就會得到一個新的分布——标準正态分布，其平均值為0，标準差為1，如圖所示：

從正态分布（右）到标準正态分布（左）的轉換。

每次我們進行假設檢驗時，都需要假定一個檢驗統計量，在我們的例子中是學生的平均睡眠時間。在z檢驗中，我們通常假定統計檢驗量的分布近似正态分布。因為，根據中心極限定理（central limit theorem），從總體資料中獲得越多的資料值，這些資料值的平均數則越接近于正态分布。

然而，這始終是一個估計，因為真實世界的資料永遠不會完全遵循正态分布。假設正态分布能夠讓我們确定在研究中觀察到的結果有多少意義，我們可以觀察z分數，z分數越高或越低，結果越不可能是偶然發生，也就越具有意義。為了量化結果的意義，我們需要使用另一個概念。

P值和α是個啥！

最後的核心概念是p值。p值是當零假設為真時所得觀察到的結果，或是更為極端的結果出現的概念。這有點令人費解，是以讓我們來看一個例子。

假設我們要比較美國佛羅裡達州和華盛頓州人民的平均智商。我們的零假設是華盛頓的平均智商不高于佛羅裡達的平均智商。

通過研究發現，華盛頓州的人民智商比佛羅裡達州人民智商高2.2，其p值為0.346（大于顯著性水準）。這意味着，零假設“華盛頓的平均智商不高于佛羅裡達的平均智商”為真，也就是說，華盛頓的智商實際上并沒有更高，但是由于随機噪聲的影響，仍然有34.6%的機率我們會測量到其智商分數會高出2.2分。之後随着p值降低，結果就更有意義，因為噪聲的影響也會越來越小。

這個結果是否具有統計意義取決于我們在實驗開始之前設定的顯著性水準——alpha。如果觀察到的p值小于α，則結果在統計學上具有意義。我們需要在實驗前選擇alpha，因為如果等到實驗結束再選擇的話，我們就可以根據我們的結果選一個數字來證明結果是顯著的，卻不管資料真正顯示了什麼，這是一種資料欺騙的行為。

α的選擇取決于實際情況和研究領域，但最常用的值是0.05，相當于有5%的可能性結果是随機發生的。在我的實驗中，從0.1到0.001之間都是比較常用的數值。也有較為極端的例子，發現希格斯玻色子（Higgs Boson particle）的實體學家使用的p值為0.0000003，即350萬分之一的機率結果由偶然因素造成。(現代統計學之父R.A.Fischer不知為什麼，随便選擇了0.05為p值，很多統計學家極其不想承認這一點，并且這個值現在讓許多統計學家非常困擾與擔憂)！

要從z值得到p值，我們需要使用像R這樣的表格統計軟體，它們會在結果中将顯示z值低于計算值的機率。例如，z值為2，p值為0.977，這意味着我們随機觀察到z值高于2的機率隻有2.3%。

正态分布下z值低于2的機率為97.7%

總結應用

我們做個總結，截止到目前提到了三個概念

1.假設檢驗：用來檢驗理論的方法。

2.正态分布：假設檢驗中對資料分布形态的近似表示。

3.P值：當零假設為真時觀察到的或是出現更為極端結果的機率。

現在讓我們把這些概念帶入到我們的例子中：

根據國家睡眠基金會（the National Sleep Foundation）的資料，全國學生平均每晚睡眠時間為7.02小時。

針對本校202名學生進行的一項調查發現，本校學生的平均每晚睡眠時間為6.90小時，标準差為0.84小時。

我們的備擇假設是，本校學生的平均睡眠時間少于全國大學生的平均睡眠時間。

我們将選取0.05為α值，這意味着當p值低于0.05時，結果是顯著的。

首先，我們需要把測量值轉換成z分數，用測量值減去平均值(全國大學生平均睡眠時間)，除以标準差與樣本量平方根的商（如下圖）。另外，随樣本量的增加，标準差亦随之減少，這一點可以用标準差除以樣本量的平方根來解釋。

轉換為Z值

Z分數就是我們的檢驗統計量。一旦我們有了檢驗統計量，我們就可以使用像R這樣的程式語言來計算p值。這裡展示代碼隻是為了說明使用這些免費的分析工具來進行操作是多麼的容易！(#号是表示備注，加粗字型是輸出值)

# Calculate the results

z_score = (6.90 - 7.02) / (0.84 / sqrt(202))

p_value = pnorm(z_score)

# Print our results

sprintf('The p-value is %0:5f for a z-score of %0.5f.', p_value, z_score)

"The p-value is 0.02116 for a z-score of -2.03038."

因為p值為0.02116，是以我們可以拒絕零假設(統計學家喜歡說拒絕零假設，而不是接受備擇假設。) 。也就是說，雖然我們的結果有2.12%的機率由随機噪聲引起，但在顯著性水準為0.05的情況下，本校學生平均睡眠時間比美國大學生平均睡眠時間少，這一假設在統計學上顯著。是以，在這場辯論中，學生會主席的觀點得到了支援。

但是，我們不能太過相信這一結果，而立即叫停所有的家庭作業。因為，如果我們選用0.01為臨界值，則p值(0.02116)未達到顯著。是以，如果有人想要證明相反的觀點，可以簡單地通過操縱p值來實作。是以，無論何時，當我們審查一項研究時，除了結論外，我們還應該考慮p值和樣本大小。

本例中，因為202是個相對較小的樣本數量，是以我們的研究結果不僅有統計意義，同時具有實際意義。需要說明的是，這是一項觀察性研究，隻有相關性，而不能得出因果關系。我們的結果表明了本校學生和平均睡眠不足是有之間的相關關系，但并不是意味着來我們學校會導緻睡眠減少，這其中可能還存在其他因素影響睡眠，隻有通過随機對照研究才能證明其因果關系。

與大多數技術概念一樣，統計顯著性并不那麼複雜，隻是許多小概念的內建體，最主要的麻煩來自于學習那些術語！但是一旦你掌握了這些小概念，并将其結合起來，就可以開始應用這些統計概念了。

你會發現，當掌握了統計學的基本知識後，你就能夠以一種健康的懷疑态度來更好的審視一些研究和資訊，你可以看到資料實際上表達了什麼，而不是别人告訴你資料意味着什麼。或許這就是對付狡猾的政客和公司的最佳政策——通過統計知識的普及與訓練來提高公衆的質疑能力。

原文釋出時間為：2018-10-12

本文來自雲栖社群合作夥伴“

大資料文摘

”，了解相關資訊可以關注“

”。

資源 | 一文學會統計學中的顯著性概念

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark