天天看點

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

作者:Mr資料楊

統計檢驗亦稱『假設檢驗』。根據抽樣結果,在一定可靠性程度上對一個或多個總體分布的原假設作出拒絕還是不拒絕(予以接受)結論的程式。決定常取決于樣本統計量的數值與所假設的總體參數是否有顯著差異。這時稱差異顯著性檢驗。檢驗的推理邏輯為具有機率性質的反證法。例如,在參數假設檢驗中,當對總體分布的參數作出原假設 H0 後,先承認總體與原假設相同, 然後根據樣本計算一個統計量,并求出該統計量的分布,再給定一個小機率(一般為 0.05,0.01 等,視情況而定),确定拒絕原假設 H0 的區域(拒絕域)。

通過本文可以學習學習到:

  1. 檢驗 是由樣本資料推測分析者對整體資料建立的說法是否正确的分析方法。
  2. 檢驗 實際上統計上的假設檢驗。
  3. 檢驗統計量是将樣本資料轉換為數值的公式。
  4. 置信度水準一般設定0.05或者0.01。
  5. 拒絕域為對應之置信水準範圍。
  6. 獨立性檢驗的計算方法,以及結論表達。
資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

檢驗

假設:對總體參數的的數值所作的一種陳述,總體參數包括總體均值、比例、方差等分析之前必需陳述。

假設檢驗:事先對總體參數或分布形式作出某種假設,然後 利用樣本資訊來判斷原假設是否成立,有參數假設檢驗和非參數假設檢驗,采用邏輯上的反證法,依據統計上的小機率原理。

假設檢驗的誤區

  1. 第一類(棄真錯誤):原假設為真時拒絕原假設,會産生一系列後果,第一類錯誤的機率為a,被稱為顯著性水準。
  2. 第二類(取僞錯誤):原假設為假時接受原假設,第二類錯誤的機率為β。

檢驗程式的流程

  1. 定義總體。
  2. 建立虛無假設和對立假設。
  3. 選擇檢驗的種類。
  4. 選擇置信度水準。
  5. 求資料中檢驗統計量的值。
  6. 結果是否在4的置信區間内。
  7. 若不在置信區間内結論為 對立假設,若在置信區間内則 無法判斷虛無假設為假。

參數估計

參數估計中包含2個基本概念,估計量和估計值。 估計量:用于估計總體參數的随機變量,如樣本均值,樣本比例, 樣本方差等,例如: 樣本均值就是總體均值 θ 的一個估計量。

估計值:估計參數時計算出來的統計量的具體值,如果樣本均值 =10,則10 就是 μ 的估計值。

點估計

用樣本的估計量的某個取值直接作為總體參數的估計值

例如:用樣本均值直接作為總體均值的估計,用兩個樣本均值之差直接作為總體均值之差的估計。

對于無法給出估計值接近總體參數程度的情況下,雖然在重複抽樣條件下,點估計的均值可望等于總體真值,但由于樣本是随機的,抽出一個具體的樣本得到的估計值很可能不同于總體真值。

一個點估計量的可靠性是由它的抽樣标準誤差來衡量的,這表明一個具體的點估計值無法給出估計的可靠性的度量。

區間估計

在點估計的基礎上,給出總體參數估計的一個區間範圍,該區間由樣本統計量加減估計誤差而得到。根據樣本統計量的抽樣分布能夠對樣本統計量與總體參數的接近程度給出一個機率度量。

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

置信水準

将構造置信區間的步驟重複很多次,置信區間包含總體參數真值的次數所占的比例稱為置信水準。

表示為 (1 - α)%,α 為是總體參數未在區間内的比例,常用的置信水準值有 99%, 95%, 90%,相應的 α 為0.01,0.05,0.1,後面會通過案例介紹。

置信區間

由樣本統計量所構造的總體參數的估計區間稱為置信區間,統計學家在某種程度上确信這個區間會包含真正的總體參數,是以給它取名為置信區間。

XX%置信區間,意味着如果你用同樣的步驟,去選樣本,計算置信區間, 那麼100次這樣的獨立過程,有XX%的機率你計算出來的區間會包含真實參數值,即大概會有XX個置信區間會包含真值。

總體來說置信區間是一個機率值,表示能解釋情況的一個百分比。

樣本确定應用

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

舉例說明,擁有工商管理學士學位的大學畢業生年薪的标準差大約為2000元,假定想要估計年薪95%的置信區間,希望估計誤差為400元,應抽取多大的樣本量?

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

獨立性檢驗

百度百科的定義:獨立性檢驗是統計學的一種檢驗方式,與适合性檢驗同屬于 X2 檢驗,即卡方檢驗(英文名:chi square test),它是根據次數資料判斷兩類因子彼此相關或互相獨立的假設檢驗。由聯表中的資料算出随機變量 K2 的值(即K的平方), K2 的值越大,說明“X與Y有關系”成立的可能性越大。

簡單來說就是推測 總體的克萊姆相關系數的值是否為0 的分析方法。主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在于比較理論頻數和實際頻數的吻合程度或拟合優度問題。

舉例喝牛奶和發病率的關系說明獨立性檢驗

感冒人數 未感冒人數 合計 感冒率
喝牛奶組 43 96 139 30.94%
不喝牛奶組 28 84 112 25.00%
合計 71 180 251 28.29%

通過計算得到組内的期望數值為(資料四舍五入)

感冒人數 未感冒人數 合計 感冒率
喝牛奶組 43 / 39 96 / 100 139 30.94%
不喝牛奶組 28 / 32 84 / 80 112 25.00%
合計 71 180 251 28.29%

如果喝牛奶和感冒真的是獨立無關的,那麼四格表裡的理論值和實際值差别應該會很小,之前在克萊姆相關系數中介紹了。

卡方檢驗(獨立性檢驗)

計算公式為

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

實際就是度量實際值到期望值的距離的和,f0為實際值,fe為期望值。

x平方用于衡量實際值與理論值的差異程度(也就是卡方檢驗的核心思想),包含了以下兩個資訊:

  1. 實際值與理論值偏差的絕對大小(由于平方的存在,差異是被放大的)。
  2. 差異程度與理論值的相對大小。
資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

對于 95%的 置信區間來說 卡方計算的值應該是 3.841,但是實際結果是 1.077 。則說明喝牛奶和感冒是獨立不相關的。

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

總結:卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。

注意:卡方檢驗針對分類變量。

拟合優度檢驗

了解3個概念,回歸平方和 ESS,殘差平方和 RSS,總體平方和 TSS

總體平方和TSS(Total Sum of Squares) :表示實際值與期望值的離差平方和,代表變量的總變動程度。

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

回歸平方和ESS(Explained Sum of Squares) :表示預測值與期望值的離差平方和,代表預測模型擁有的變量變動程度。

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

殘差平方和RSS(Residual Sum of Squares) :表示實際值與預測值的離差平方和,代表變量的未知變動程度。

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

拟合優度計算

建立模型後,整體變量的總變動程度(TSS)可以劃分為兩部分:

  1. 模型模拟的變動程度(ESS)
  2. 未知的變動程度(RSS)
資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

虛無假設和對立假設

檢驗方式 虛無假設 對立假設
獨立性檢驗 克萊姆系數 = 0 克萊姆系數 > 0
相關比檢驗 相關比值 = 0 相關比值 > 0
無相關檢驗 相關系數 = 0 相關系數 = 0 或 相關系數 ≠ 0
總體平均差檢驗 平均查相等 平均差不等
總體比例差檢驗 總體比例相等 總體比例不等

簡單了解為 虛無假設 即原有假設成立,對立假設 即想要的結果成立。

P值的概念

用于單側檢驗和雙側檢驗

資料科學必備統計基礎 獨立性檢驗&拟合優度檢驗

一般來說置信度水準設定在95%,即可以解釋95%的情況,也就是常說的顯著水準,這個值可以根據實際情況自己更改。

單側檢驗

  • 若值不拒絕若p值>a,不拒絕H0
  • 若值拒絕若p值<a,拒絕H0
資料科學必備統計基礎 獨立性檢驗&amp;拟合優度檢驗

雙側檢驗

  • 若值不拒絕若p值>a/2,不拒絕H0
  • 若值拒絕若p值<a/2,拒絕H0
資料科學必備統計基礎 獨立性檢驗&amp;拟合優度檢驗

對于 P 值小于置信度水準,以 檢驗 無法做出 對立假設 絕對正确的結論。隻能做出 雖然想說對立假設絕對正确 ,但是 虛無假設 存在正确機率為 P 值的結論。

雖然 P 值大于置信度水準,雖然看似可以得到 虛無假設 正确的結論,但是實際上并不可以,隻能做出 無法判斷虛無假設為錯誤 的結論。

繼續閱讀