天天看点

统计学基础知识点刷题(task2)

参考视频:可汗学院《统计学》

参考书籍:《深入浅出统计学》

文章目录

          • 概念1:中心极限定理
          • 概念2:置信区间
          • 概念3:伯努利分布
          • 概念4:误差范围
          • 概念5:小样本容量置信区间
概念1:中心极限定理
  1. 核心内容:随着抽样次数趋于 ∞ \infty ∞,样本均值的抽样分布趋近于正态分布,且该正态分布的均值为总体均值。

    X ‾ 服 从 N ( μ , σ / n ) \overline{X}服从N(\mu,\sigma/\sqrt{n}) X服从N(μ,σ/n

    ​)

注意

:

(1)假设抽样次数为n,对每次抽样的样本容量没有要求,但是样本容量越大,则样本均值的抽样分布的方差/标准差越小。

(2)抽样分布是一个很重要的概念,样本均值的抽样分布比较常见。

  1. 原概率分布的方差与抽样分布方差、抽样次数n之间的关系

    σ x ‾ 2 = σ 2 n \sigma_{\overline{x}}^2=\frac{\sigma^2}{n} σx2​=nσ2​

样本均值抽样分布的标准差通常称为均值标准差/均值标准误差。
概念2:置信区间
  1. 典型场景

    从农场收获的20万个苹果中抽取36个作为样本,样本均值为112克,样本标准差为40克,求总体均值处于100-124之间的概率是多少?

  2. 区间估计方式

    由中心极限定理知: X ‾ ∼ N ( μ , σ / n ) \overline{X}\sim{N(\mu,\sigma/\sqrt{n})} X∼N(μ,σ/n

    ​),所以:

    Z = ∣ X ‾ − μ σ / n ∣ ≤ 124 − 112 40 / 36 Z=|\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}|\le{\frac{124-112}{40/\sqrt{36}}} Z=∣σ/n

    ​X−μ​∣≤40/36

    ​124−112​

    通过查标准正态分布表即可得到相应的概率。

Tips

:在进行置信区间估计时,可依据68-95-99.7经验法则进行大致推算。如:首先可求得样本均值 x ‾ \overline{x} x以及 σ / n \sigma/\sqrt{n} σ/n

​( x ‾ \overline{x} x所服从分布的标准差),然后即可得出 μ \mu μ处于 x ‾ ± 1 ∗ σ / n \overline{x}\pm 1*\sigma/\sqrt{n} x±1∗σ/n

​区间内的概率为68%,处于 x ‾ ± 2 ∗ σ / n \overline{x}\pm 2*\sigma/\sqrt{n} x±2∗σ/n

​区间内的概率为95%,处于 x ‾ ± 3 ∗ σ / n \overline{x}\pm 3*\sigma/\sqrt{n} x±3∗σ/n

​区间内的概率为99.7%。从而也可以此来检验区间估计的结果。

概念3:伯努利分布
  1. 伯努利分布又称0-1分布、两点分布,是二项分布最简单的情形。
  2. 伯努利分布的期望和方差

    比如某件事情有40%的人说好,有60%的人说不好。假设不好用0表示,好用1表示,则:

    E ( X ) = 0.4 ∗ 1 + 0.6 ∗ 0 = 0.4 E(X)=0.4*1+0.6*0=0.4 E(X)=0.4∗1+0.6∗0=0.4

    σ 2 = 0.4 ∗ ( 1 − 0.4 ) 2 + \sigma^2=0.4*(1-0.4)^2+ σ2=0.4∗(1−0.4)2+

    0.6 ∗ ( 0 − 0.4 ) 2 0.6*(0-0.4)^2 0.6∗(0−0.4)2

注意:

伯努利分布与二项分布是有联系的。
概念4:误差范围
  1. 误差范围在某些教材中称为边际误差(《商务与经济统计》原书第13版第8.1节)。边际的意思是指自变量的微小变化所引起的目标变量的变化,来源于经济学基本原理中。
  2. 误差范围概念与区间估计是紧密联系的,在区间估计的过程中会用到误差范围,而之所以需要区间估计,是因为日常生活中往往总体均值或总体比率等在某一置信水平下是处于一定范围内的,而不是一个定值。
  3. 误差范围来源

    ∵ X ‾ ∼ N ( μ , σ / n ) ∴ Z = ∣ x ‾ − μ σ / n ∣ = Z α 2 ∴ 对 总 体 均 值 μ 进 行 双 侧 区 间 估 计 时 的 区 间 边 界 为 : \because \overline{X}{\sim{N(\mu,\sigma/\sqrt{n})}} \\ \therefore Z=|\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}|=Z_{\frac{\alpha}{2}} \\ \therefore 对总体均值\mu进行双侧区间估计时的区间边界为: ∵X∼N(μ,σ/n

    ​)∴Z=∣σ/n

    ​x−μ​∣=Z2α​​∴对总体均值μ进行双侧区间估计时的区间边界为:

    x ‾ ± Z α 2 σ n \overline{x}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} x±Z2α​​n

    ​σ​

    ∴ 边 际 误 差 / 误 差 范 围 即 为 : Z α 2 σ n \therefore 边际误差/误差范围即为:Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} ∴边际误差/误差范围即为:Z2α​​n

    ​σ​。

    误差范围实际上反映的是用样本均值去估计总体均值时,误差区间的大小。

  4. 决定误差范围的因素

    很明显,误差范围取决于置信水平 α \alpha α以及总体标准差 σ \sigma σ、样本容量 n n n。在实际应用中我们通常会规定误差范围,所以可通过以下公式来计算所需的样本容量,令误差范围为 E E E,则:

    ∵ E = Z α 2 σ n \because E=Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} ∵E=Z2α​​n

    ​σ​

    ∴ n = ( Z α / 2 ) 2 ∗ σ 2 E 2 \therefore n=\frac{(Z_{\alpha/2})^2*\sigma^2}{E^2} ∴n=E2(Zα/2​)2∗σ2​

注意

:上述公式只是针对

总体均值未知

情况下的样本容量确定,此外如在总体均值 σ \sigma σ不确定时,需要采用t-分布,公式会有相应变化。
概念5:小样本容量置信区间
  1. 当样本容量较小且总体方差未知时,不能再假设样本均值的抽样分布服从正态分布。此时需要使用样本方差,有: X ‾ − μ S / n ∼ t α 2 ( n − 1 ) \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim{t_{\frac{\alpha}{2}}(n-1)} S/n

    ​X−μ​∼t2α​​(n−1)

  2. t-分布的曲线

    t-分布曲线与正态曲线相似,左右对称且单峰。其自由度越大,则越接近正态分布的曲线,自由度越小,越矮宽。图形如下:

    统计学基础知识点刷题(task2)

注意

:为什么自由度是n-1呢?
  1. 这里可以这么理解:因为样本方差里包含了样本值的信息,所以只需要n-1个样本再加上样本方差,就可以唯一确定第n个样本值,因为自由度为n-1。这与样本方差计算公式中除以n-1是类似的(因为其中用到的样本均值包含了样本信息)。
  2. 可以联想到机器学习中模型训练与测试数据要尽量避免“泄漏”(leak)。这里的样本方差和样本均值也是包含了原始数据的信息,一旦和原始残缺样本掺杂在一起就有可能确定所有样本,造成leak。