天天看點

統計學基礎知識點刷題(task2)

參考視訊:可汗學院《統計學》

參考書籍:《深入淺出統計學》

文章目錄

          • 概念1:中心極限定理
          • 概念2:置信區間
          • 概念3:伯努利分布
          • 概念4:誤差範圍
          • 概念5:小樣本容量置信區間
概念1:中心極限定理
  1. 核心内容:随着抽樣次數趨于 ∞ \infty ∞,樣本均值的抽樣分布趨近于正态分布,且該正态分布的均值為總體均值。

    X ‾ 服 從 N ( μ , σ / n ) \overline{X}服從N(\mu,\sigma/\sqrt{n}) X服從N(μ,σ/n

    ​)

注意

:

(1)假設抽樣次數為n,對每次抽樣的樣本容量沒有要求,但是樣本容量越大,則樣本均值的抽樣分布的方差/标準差越小。

(2)抽樣分布是一個很重要的概念,樣本均值的抽樣分布比較常見。

  1. 原機率分布的方差與抽樣分布方差、抽樣次數n之間的關系

    σ x ‾ 2 = σ 2 n \sigma_{\overline{x}}^2=\frac{\sigma^2}{n} σx2​=nσ2​

樣本均值抽樣分布的标準差通常稱為均值标準差/均值标準誤差。
概念2:置信區間
  1. 典型場景

    從農場收獲的20萬個蘋果中抽取36個作為樣本,樣本均值為112克,樣本标準差為40克,求總體均值處于100-124之間的機率是多少?

  2. 區間估計方式

    由中心極限定理知: X ‾ ∼ N ( μ , σ / n ) \overline{X}\sim{N(\mu,\sigma/\sqrt{n})} X∼N(μ,σ/n

    ​),是以:

    Z = ∣ X ‾ − μ σ / n ∣ ≤ 124 − 112 40 / 36 Z=|\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}|\le{\frac{124-112}{40/\sqrt{36}}} Z=∣σ/n

    ​X−μ​∣≤40/36

    ​124−112​

    通過查标準正态分布表即可得到相應的機率。

Tips

:在進行置信區間估計時,可依據68-95-99.7經驗法則進行大緻推算。如:首先可求得樣本均值 x ‾ \overline{x} x以及 σ / n \sigma/\sqrt{n} σ/n

​( x ‾ \overline{x} x所服從分布的标準差),然後即可得出 μ \mu μ處于 x ‾ ± 1 ∗ σ / n \overline{x}\pm 1*\sigma/\sqrt{n} x±1∗σ/n

​區間内的機率為68%,處于 x ‾ ± 2 ∗ σ / n \overline{x}\pm 2*\sigma/\sqrt{n} x±2∗σ/n

​區間内的機率為95%,處于 x ‾ ± 3 ∗ σ / n \overline{x}\pm 3*\sigma/\sqrt{n} x±3∗σ/n

​區間内的機率為99.7%。進而也可以此來檢驗區間估計的結果。

概念3:伯努利分布
  1. 伯努利分布又稱0-1分布、兩點分布,是二項分布最簡單的情形。
  2. 伯努利分布的期望和方差

    比如某件事情有40%的人說好,有60%的人說不好。假設不好用0表示,好用1表示,則:

    E ( X ) = 0.4 ∗ 1 + 0.6 ∗ 0 = 0.4 E(X)=0.4*1+0.6*0=0.4 E(X)=0.4∗1+0.6∗0=0.4

    σ 2 = 0.4 ∗ ( 1 − 0.4 ) 2 + \sigma^2=0.4*(1-0.4)^2+ σ2=0.4∗(1−0.4)2+

    0.6 ∗ ( 0 − 0.4 ) 2 0.6*(0-0.4)^2 0.6∗(0−0.4)2

注意:

伯努利分布與二項分布是有聯系的。
概念4:誤差範圍
  1. 誤差範圍在某些教材中稱為邊際誤差(《商務與經濟統計》原書第13版第8.1節)。邊際的意思是指自變量的微小變化所引起的目标變量的變化,來源于經濟學基本原理中。
  2. 誤差範圍概念與區間估計是緊密聯系的,在區間估計的過程中會用到誤差範圍,而之是以需要區間估計,是因為日常生活中往往總體均值或總體比率等在某一置信水準下是處于一定範圍内的,而不是一個定值。
  3. 誤差範圍來源

    ∵ X ‾ ∼ N ( μ , σ / n ) ∴ Z = ∣ x ‾ − μ σ / n ∣ = Z α 2 ∴ 對 總 體 均 值 μ 進 行 雙 側 區 間 估 計 時 的 區 間 邊 界 為 : \because \overline{X}{\sim{N(\mu,\sigma/\sqrt{n})}} \\ \therefore Z=|\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}|=Z_{\frac{\alpha}{2}} \\ \therefore 對總體均值\mu進行雙側區間估計時的區間邊界為: ∵X∼N(μ,σ/n

    ​)∴Z=∣σ/n

    ​x−μ​∣=Z2α​​∴對總體均值μ進行雙側區間估計時的區間邊界為:

    x ‾ ± Z α 2 σ n \overline{x}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} x±Z2α​​n

    ​σ​

    ∴ 邊 際 誤 差 / 誤 差 範 圍 即 為 : Z α 2 σ n \therefore 邊際誤差/誤差範圍即為:Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} ∴邊際誤差/誤差範圍即為:Z2α​​n

    ​σ​。

    誤差範圍實際上反映的是用樣本均值去估計總體均值時,誤差區間的大小。

  4. 決定誤差範圍的因素

    很明顯,誤差範圍取決于置信水準 α \alpha α以及總體标準差 σ \sigma σ、樣本容量 n n n。在實際應用中我們通常會規定誤差範圍,是以可通過以下公式來計算所需的樣本容量,令誤差範圍為 E E E,則:

    ∵ E = Z α 2 σ n \because E=Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} ∵E=Z2α​​n

    ​σ​

    ∴ n = ( Z α / 2 ) 2 ∗ σ 2 E 2 \therefore n=\frac{(Z_{\alpha/2})^2*\sigma^2}{E^2} ∴n=E2(Zα/2​)2∗σ2​

注意

:上述公式隻是針對

總體均值未知

情況下的樣本容量确定,此外如在總體均值 σ \sigma σ不确定時,需要采用t-分布,公式會有相應變化。
概念5:小樣本容量置信區間
  1. 當樣本容量較小且總體方差未知時,不能再假設樣本均值的抽樣分布服從正态分布。此時需要使用樣本方差,有: X ‾ − μ S / n ∼ t α 2 ( n − 1 ) \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim{t_{\frac{\alpha}{2}}(n-1)} S/n

    ​X−μ​∼t2α​​(n−1)

  2. t-分布的曲線

    t-分布曲線與正态曲線相似,左右對稱且單峰。其自由度越大,則越接近正态分布的曲線,自由度越小,越矮寬。圖形如下:

    統計學基礎知識點刷題(task2)

注意

:為什麼自由度是n-1呢?
  1. 這裡可以這麼了解:因為樣本方差裡包含了樣本值的資訊,是以隻需要n-1個樣本再加上樣本方差,就可以唯一确定第n個樣本值,因為自由度為n-1。這與樣本方差計算公式中除以n-1是類似的(因為其中用到的樣本均值包含了樣本資訊)。
  2. 可以聯想到機器學習中模型訓練與測試資料要盡量避免“洩漏”(leak)。這裡的樣本方差和樣本均值也是包含了原始資料的資訊,一旦和原始殘缺樣本摻雜在一起就有可能确定所有樣本,造成leak。