天天看點

假設檢驗_統計判斷

統計學本質

抽樣

為了了解全體調查對象的傾向,需要以抽樣的方式統計性地抽取一部分調查對象,

然後根據樣本中所包含的資訊對總體的狀況進行估計和推算。

從總體當中抽取一定的樣本,基于樣本的統計量來推斷總體特征

兩大定理

大數定律(Law of Large Numbers)

樣本N越大,樣本均值幾乎必然等于總體均值。

中心極限定理(Central Limit Theorem)

當樣本量N逐漸趨于無窮大時,N個抽樣樣本的均值的幀數逐漸趨于正态分布。

統計判斷

抽樣誤差與标準誤差

  • 抽樣誤差

    由個體變異産生的、抽樣造成的樣本統計量與總體參數的差别。原因:

    • 抽樣
    • 個體差異
  • 标準誤

表示樣本統計量抽樣誤差大小的統計量。

标準差與标準誤的差別

名額 意義 應用
标準差

衡量變量值變異程度,标準差越大表示

變量值變異程度越大,反之則越小

描述正态分布(近似正态分布)資料的

頻數分布

标準誤

樣本均數的變異程度,表示抽樣誤差的大

小。标準誤差越大表示抽樣誤差越大,樣本

均數的可靠性越小;标準誤越小表示抽樣

誤差越小,樣本均數的可靠性越大。

總體均數區間估計;兩個或多個總體

均數間的比較

t分布

t分布中有一個參數,即自由度v。當自由度不同時,曲線的形狀不同;

當自由度趨向無窮大時,t分布趨近标準正态分布。

随機變量X

N( μ , σ 2 \mu,\sigma^2 μ,σ2)

Z = X − μ σ Z=\frac{X-\mu}{\sigma} Z=σX−μ​

——————>

z變換

标準正态分布

N(0,1^2)

Excel兩個函數:TINV(機率值求t值)、TDIST(t值求機率值)

t分布特征:

  • 單峰分布,以0為中心,左右對稱。
  • 自由度v越小,則t值越分散,峰值越矮而尾部越翹。
  • 當v越大,越接近正态分布。

參數估計

定義:用樣本統計量推斷總體參數。

點估計(Point Estimation):用相應樣本統計量直接作為總體參數的估計值。

區間估計(Interval Estimation):按預先給定的機率所确定的包含未知總體參數的一個範圍。

注意:(1)總體标準差是否已知,(2)樣本量n的大小。

總體标準差未知且樣本量較小,按t分布估計。樣本量較大,按z分布估計。

假設檢驗

舉例:大規模調查表明,健康成年男子血紅蛋白的均值為136.0g/L,現随機抽樣調查某機關食堂成年男性炊事員25名,測得血紅蛋白均數121.0g/L,标準差48.8g/L。

問題:根據資料推斷食堂炊事員血紅蛋白均數是否與健康

總體均值與樣本均值不同的原因:(1)抽取誤差導緻的,(2)本質差異産生的。

假設檢驗的目的:判斷總體與樣本量的差異是哪一種原因導緻的。

假設檢驗思路和步驟

基本思想:小機率反證法

利用小機率反證法思想,從問題對立面(H0)出發間接判斷要解決的問題(H1)是否成立。然後在H0成立的條件下計算檢驗統計量,最後得到P值來判斷。當P值小于預先設定的顯著性水準a時,就屬于小機率事件。根據小機率事件的原理:小機率事件在一次抽樣中發生的可能性很小,如果發生了,則有理由懷疑原假設H0,認為其對立面H1是成立的。

H0:原假設,兩者之間沒有差異。H1:研究假設,兩者之間有差異。

步驟

  • 建立檢驗假設(H0、H1),确認顯著性水準
  • 根據變量類型、統計推斷的目的、是否滿足特定條件等選擇相應的檢驗統計量(T值、F值、Z值、卡方值)
  • 計算P值,與顯著性水準相比

假設檢驗注意事項

  • 假設檢驗是針對總體而言的,而不是針對樣本
  • H0和H1是互相聯系,對立存在,二者卻一不可
  • H1直接反應了檢驗的單雙側,需要考慮有無差異還是差異的方向
  • 雙側檢驗較為保守,是否定為單側檢驗需結合專業知識判斷

繼續閱讀