天天看點

如何了解總體标準差、樣本标準差與标準誤

如何了解總體标準差、樣本标準差與标準誤

1 總體标準差

已知随機變量 X X X 的數學期望為 μ \mu μ,标準差為 σ \sigma σ,則其方差為:

σ 2 = E [ ( X − μ ) 2 ] \sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]此處 σ \sigma σ 即為随機變量 X X X 的總體标準差!

2 樣本标準差

上面的式子中,我們需要準确的了解随機變量 X X X 的總體分布,進而可以計算出其總體的期望和标準差。

但在一般情況下,對總體的每一個個體都進行觀察或試驗是不可能的。是以,必須對總體進行抽樣觀察(采樣)。由于我們是利用抽樣來對總體的分布進行推斷,是以抽樣必須是随機的,抽樣值 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1​,X2​,⋯,Xn​) 應視為一組随機變量。由于抽樣的目的是為了對總體的分布進行統計推斷,為了使抽取的樣本能很好地反映總體資訊,必須考慮抽樣方法。最常用的一種抽樣方法叫作 “簡單随機抽樣”,得到的樣本稱為簡單随機樣本,它要求抽取的樣本滿足以下兩點:

  • 代表性: X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1​,X2​,⋯,Xn​ 中每一個與所考察的總體有相同的分布;
  • 獨立性: X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1​,X2​,⋯,Xn​ 是互相獨立的随機變量。

此外,滿足以上兩點要求的樣本一般被稱為 i.i.d.樣本,即獨立同分布(independent and identically distributed)樣本。 在機率統計理論中,如果變量序列或者其他随機變量有相同的機率分布,并且互相獨立,那麼這些随機變量是獨立同分布。 在西瓜書中的解釋是:輸入空間中的所有樣本服從一個隐含未知的分布,訓練資料所有樣本都是獨立地從這個分布上采樣而得。

是以在實踐中采樣得到i.i.d.樣本之後,可以用樣本方差 S 2 S^2 S2 來近似總體方差 σ 2 \sigma^2 σ2:

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 S2=n−11​i=1∑n​(Xi​−X)2其中, n n n 為樣本容量, X ‾ \overline{X} X 為樣本均值。

上述公式的證明請參考: 為什麼樣本方差(sample variance)的分母是 n-1?

3 标準誤

執行個體:已知某學校有初三學生共200名,這200名學生的平均身高為160cm.我們以這200名初三學生作為總體,欲通過抽樣調查來了解所有初三學生的平均身高。現在假定我們共做了10次抽樣,每次抽樣量都是100人。此時我們可以分别計算出每次抽樣樣本的身高均數和标準差,可以得到10個均數和标準差。這裡10個均數和标準差都是樣本統計量,如果我們把10個樣本的均數作為原始資料,然後計算這10個值的标準差,那麼我們得到的名額就是标準誤。

即:标準誤是樣本統計量的标準差,它反映了每次抽樣樣本之間的差異。如果标準誤較小,則說明多次重複抽樣得到的統計量差别不大,提示抽樣誤差小;反之,如果标準誤較大,則說明樣本統計量之間差别較大,提示抽樣誤差較大。标準誤和标準差的差別主要展現在以下幾個方面:

  1. 标準誤的英文是Standard Error,是一種誤差;而标準差的英文是Standard Deviation,隻是一種對均數的偏離而已。偏離和誤差根本不是一個概念。
  2. 标準差隻是一個描述性名額,隻是描述原始資料的波動情況;而标準誤是跟統計推斷有關的名額。描述性名額和推斷性名額根本不是一個層次上的概念。
  3. 它們針對計算的對象不同。标準差是根據某次抽樣的原始資料計算的;而标準誤是根據多次抽樣的樣本統計量(如均數、率等)計算的。理論上,計算标準差隻需要一個樣本,而計算标準誤需要多個樣本。

盡管從理論上來講,标準誤的計算是通過多次抽樣的多個樣本統計量而獲得的,但在實際中僅依靠一次抽樣來計算标準誤也是可行的。事實上,在絕大多數情況下,我們也别無選擇,隻能利用一次抽樣資料來計算标準誤。此時标準誤的計算公式為:

S e = S n Se=\frac{S}{\sqrt{n}} Se=n

​S​ 其中,s表示樣本标準差,n為樣本的例數。不難看出,樣本例數越大,标準誤越小,即抽樣誤差越小。

上述公式可由中心極限定理證明得到。

繼續閱讀