統計學本質
抽樣
為了了解全體調查對象的傾向,需要以抽樣的方式統計性地抽取一部分調查對象,
然後根據樣本中所包含的資訊對總體的狀況進行估計和推算。
從總體當中抽取一定的樣本,基于樣本的統計量來推斷總體特征
兩大定理
大數定律(Law of Large Numbers)
樣本N越大,樣本均值幾乎必然等于總體均值。
中心極限定理(Central Limit Theorem)
當樣本量N逐漸趨于無窮大時,N個抽樣樣本的均值的幀數逐漸趨于正态分布。
統計判斷
抽樣誤差與标準誤差
-
抽樣誤差
由個體變異産生的、抽樣造成的樣本統計量與總體參數的差别。原因:
- 抽樣
- 個體差異
- 标準誤
表示樣本統計量抽樣誤差大小的統計量。
标準差與标準誤的差別
名額 | 意義 | 應用 |
---|---|---|
标準差 | 衡量變量值變異程度,标準差越大表示 變量值變異程度越大,反之則越小 | 描述正态分布(近似正态分布)資料的 頻數分布 |
标準誤 | 樣本均數的變異程度,表示抽樣誤差的大 小。标準誤差越大表示抽樣誤差越大,樣本 均數的可靠性越小;标準誤越小表示抽樣 誤差越小,樣本均數的可靠性越大。 | 總體均數區間估計;兩個或多個總體 均數間的比較 |
t分布
t分布中有一個參數,即自由度v。當自由度不同時,曲線的形狀不同;
當自由度趨向無窮大時,t分布趨近标準正态分布。
随機變量X N( μ , σ 2 \mu,\sigma^2 μ,σ2) | Z = X − μ σ Z=\frac{X-\mu}{\sigma} Z=σX−μ ——————> z變換 | 标準正态分布 N(0,1^2) |
---|---|---|
Excel兩個函數:TINV(機率值求t值)、TDIST(t值求機率值)
t分布特征:
- 單峰分布,以0為中心,左右對稱。
- 自由度v越小,則t值越分散,峰值越矮而尾部越翹。
- 當v越大,越接近正态分布。
參數估計
定義:用樣本統計量推斷總體參數。
點估計(Point Estimation):用相應樣本統計量直接作為總體參數的估計值。
區間估計(Interval Estimation):按預先給定的機率所确定的包含未知總體參數的一個範圍。
注意:(1)總體标準差是否已知,(2)樣本量n的大小。
總體标準差未知且樣本量較小,按t分布估計。樣本量較大,按z分布估計。
假設檢驗
舉例:大規模調查表明,健康成年男子血紅蛋白的均值為136.0g/L,現随機抽樣調查某機關食堂成年男性炊事員25名,測得血紅蛋白均數121.0g/L,标準差48.8g/L。
問題:根據資料推斷食堂炊事員血紅蛋白均數是否與健康
總體均值與樣本均值不同的原因:(1)抽取誤差導緻的,(2)本質差異産生的。
假設檢驗的目的:判斷總體與樣本量的差異是哪一種原因導緻的。
假設檢驗思路和步驟
基本思想:小機率反證法
利用小機率反證法思想,從問題對立面(H0)出發間接判斷要解決的問題(H1)是否成立。然後在H0成立的條件下計算檢驗統計量,最後得到P值來判斷。當P值小于預先設定的顯著性水準a時,就屬于小機率事件。根據小機率事件的原理:小機率事件在一次抽樣中發生的可能性很小,如果發生了,則有理由懷疑原假設H0,認為其對立面H1是成立的。
H0:原假設,兩者之間沒有差異。H1:研究假設,兩者之間有差異。
步驟
- 建立檢驗假設(H0、H1),确認顯著性水準
- 根據變量類型、統計推斷的目的、是否滿足特定條件等選擇相應的檢驗統計量(T值、F值、Z值、卡方值)
- 計算P值,與顯著性水準相比
假設檢驗注意事項
- 假設檢驗是針對總體而言的,而不是針對樣本
- H0和H1是互相聯系,對立存在,二者卻一不可
- H1直接反應了檢驗的單雙側,需要考慮有無差異還是差異的方向
- 雙側檢驗較為保守,是否定為單側檢驗需結合專業知識判斷