天天看点

统计学基础知识点刷题(task1)

参考视频:可汗学院《统计学》

参考书籍:《深入浅出统计学》

笔记内容

概念1:样本和总体
  1. 样本均值与总体均值

    样本均值用 X X X表示,总体均值用 μ \mu μ表示,计算方式如下:

    X = ( ∑ i = 1 n x i ​ ) / n X=(\sum_{i=1}^nx_i​)/n X=(i=1∑n​xi​​)/n

μ = ( ∑ i = 1 N x i ​ ) / N μ=(\sum_{i=1}^Nx_i​)/N μ=(i=1∑N​xi​​)/N

个人理解:
  • 此处 x i x_i xi​​表示观测值,而 X i X_i Xi​​表示随机变量,二者是不同的,书写时要注意。
  • N表示总体的数目,而n<N,表示样本数目。
  • 可以将总体理解为一个大的集合,而样本是能够在一定程度上表示该集合的子集(这一点与信息论里面的

    典型集

    概念很像)。当然,并不是任意样本都能表示总体,必须是随机采样而来的才行。
概念2:总体方差与样本方差
  1. 表征意义

    均值、众数和中位数等指标用于表征数据的偏移,还需要方差(variance)用于表征数据的离散分布,体现数据的分散(dispersion)程度。

  2. 计算方式

    总体方差一般用 σ 2 \sigma^2 σ2来表示,计算公式如下:

    σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N​(x_i​−μ)^2)/N σ2=(i=1∑N​​(xi​​−μ)2)/N

    样本方差一般用 S 2 S^2 S2来表示,计算公式如下:

    S 2 = ( ∑ i = 1 n ​ ( x i ​ − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n​(x_i​−\overline{x})^2)/(n−1) S2=(i=1∑n​​(xi​​−x)2)/(n−1)

    上式被称为“总体方差的无偏估计”

个人理解:

按照总体方差的计算公式来看,样本方差的计算公式按理来说分母应该是n,为什么此处是(?−1)呢?

(1)对于抽样样本来说,其样本均值往往并不是靠近总体均值,而是靠近样本的中心,这样会导致分子(平方和)偏小,如果还是用分母为n的公式计算,将会导致样本方差偏小(用于估计总体方差时会偏小)。

(2)也可理解为样本均值x包含了一个信息自由度(通过n-1个样本及x即可确定剩下的xn​,所以实际自由度为n-1),因而对应的分母应该为n-1。

关于偏差(bias)和方差(variance)的权衡在机器学习中很常见(trade-off)。训练集过拟合就会低偏差高方差,模型泛化能力差,而欠拟合一般会造成高偏差低方差(高偏差高方差也有可能),具体细节可参考深度学习吴恩达相关课程。

概念3:标准差
  1. 为什么有了方差还需要标准差?

    因为方差的单位与原始数据单位相比多了一个平方,而标准差与原始数据单位量级相同,便于计算。标准差还可帮助计算数据点落在距离均值数倍标准差之内的概率。

  2. 计算公式

    σ = σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N​(x_i​−μ)^2)/N } σ=σ2

    ​=(i=1∑N​​(xi​​−μ)2)/N

  3. 公式推导

    σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N = 1 N ∑ i = 1 N ​ ( x i 2 ​ − 2 μ ∗ x i ​ + μ 2 ) = 1 N ​ ( ∑ i = 1 N ​ x i 2 ​ − 2 μ ∑ i = 1 N ​ x i ​ + ∑ i = 1 N ​ μ 2 ) = 1 N ​ ∑ i = 1 N ​ x i 2 ​ − 2 μ 2 + μ 2 = 1 N ​ ∑ i = 1 N ​ x i 2 ​ − μ 2 \sigma^2=(\sum_{i=1}^N​(x_i​−μ)^2)/N=\frac{1}{N}\sum_{i=1}^N​(x_i^2​−2μ∗x_i​+μ^2)=\frac{1}{N}​(\sum_{i=1}^N​x_i^2​−2μ\sum_{i=1}^N​x_i​+\sum_{i=1}^N​μ^2)=\frac{1}{N}​\sum_{i=1}^N​x_i^2​−2μ^2+μ^2=\frac{1}{N}​\sum_{i=1}^N​x_i^2​−μ^2 σ2=(i=1∑N​​(xi​​−μ)2)/N=N1​i=1∑N​​(xi2​​−2μ∗xi​​+μ2)=N1​​(i=1∑N​​xi2​​−2μi=1∑N​​xi​​+i=1∑N​​μ2)=N1​​i=1∑N​​xi2​​−2μ2+μ2=N1​​i=1∑N​​xi2​​−μ2

概念4:随机变量(Random variable)
  1. 像是从随机过程映射到数值的函数,如用随机变量 X X X表示明天是否下雨,则表达式如下:

    X = { 1 下雨 0 不下雨 X= \begin{cases} 1&amp; \text{下雨}\\ 0&amp; \text{不下雨} \end{cases} X={10​下雨不下雨​

    实质上就是一个函数映射的过程。

  2. 随机变量分为离散型随机变量和连续型随机变量,离散型随机变量对应分布律,连续性随机变量对应概率密度函数。

    随 机 变 量 包 括 { 离 散 型 随 机 变 量 ( 有 穷 ) 连 续 型 随 机 变 量 ( 无 穷 ) 随机变量包括 \begin{cases} 离散型随机变量 (有穷)\\ 连续型随机变量 (无穷) \end{cases} 随机变量包括{离散型随机变量(有穷)连续型随机变量(无穷)​

概念5:概率密度函数
  1. 概率密度函数用于反映连续型随机变量的分布,对应概率密度曲线,曲线下相应区间的面积即为所在区间对应的概率。

    P ( 1 &lt; X &lt; 3 ) = ∫ 1 3 f X ( x ) d x P(1&lt;X&lt;3)=\int_{1}^{3}f_X(x)d_x P(1<X<3)=∫13​fX​(x)dx​

  2. 离散型随机随机变量反映在分布上式离散的柱状图形式,而不是连续曲线。

注意:

(1) P ( Y = 2 ) = 0 P(Y=2)=0 P(Y=2)=0,连续随机变量在任意某一点的概率为0,我们只能说 P ( ∣ Y − 2 ∣ ) &lt; α P(|Y-2|)&lt;\alpha P(∣Y−2∣)<α类似的形式。

(2)随机变量的全部可能结果的出现概率之和为1,即概率密度曲线下的面积为1。

概念6:二项分布(Binomial Distribution)
  1. 典型过程:随机投掷筛子若干次(比如5次),出现正面朝上的概率即服从二项分布,表示为 X 服 从 N ( 5 , p ) X服从N(5,p) X服从N(5,p)。出现k次正面朝上的概率为: P ( X = k ) = C n k ( 1 2 ) k ∗ ( 1 2 ) n − k P(X=k)=C_n^k(\frac{1}{2})^k*(\frac{1}{2})^{n-k} P(X=k)=Cnk​(21​)k∗(21​)n−k,该概率与二项式 ( 1 2 + 1 2 ) n (\frac{1}{2}+\frac{1}{2})^n (21​+21​)n有关,将该二项式分解即可得概率。
  2. 二项分布可视为若干次独立伯努利实验。当n足够大时,趋近于正态分布。泊松分布可以看成是二项分布的极限,假设泊松分布参数 λ = n p \lambda=np λ=np,当二项分布n足够大、p足够小时,可用泊松分布的概率来模拟二项分布。
  3. 二项分布的期望与方差

    E ( X ) = n p E(X)=np E(X)=np

    D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)

  4. Excel求解二项式系数

    主要是采用fact函数求阶乘。

概念7:期望(Expectation)
  1. 随机变量的期望实际上就是总体的均值,它只是针对总体不确定或太大的情况下采用的一种变通的求解方式(变通之处在于不是求和取平均,而是采用结果加权求和的方式)。
  2. 计算方式

    E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1∑n​xi​pi​

  3. 二项分布期望推导

    E ( X ) = ∑ i = 1 n i ∗ C n i p i ( 1 − p ) n − i = ∑ i = 1 n i ∗ n ! i ! ∗ ( n − i ) ! ∗ p i ∗ ( 1 − p ) n − i = … = n p E(X)=\sum_{i=1}^ni*C_n^ip^i(1-p)^{n-i}=\sum_{i=1}^n{\frac{i*n!}{i!*(n-i)!}*p^i*(1-p)^{n-i}}=\ldots=np E(X)=i=1∑n​i∗Cni​pi(1−p)n−i=i=1∑n​i!∗(n−i)!i∗n!​∗pi∗(1−p)n−i=…=np

    推导具体过程:二项分布的期望

概念8:泊松过程(Poison)
  1. 典型过程:任一时刻通过街上某一点的车辆数

    假设1:街上此点任意时刻的车流量没有差异

    假设2:一段时间的车流量对另一段时间的车流量没有影响

  2. 泊松分布其实就是来源于二项分布,是二项分布当n趋近于无穷大(将连续时间等分为无穷多个区间,保证每一区间内最多只有一个结果,如此便可视为二项分布)的极限形式。
  3. 公式推导

    ∵ E ( X ) = λ = n p \because E(X)=\lambda=np ∵E(X)=λ=np

    ∴ p = λ n \therefore p=\frac{\lambda}{n} ∴p=nλ​

    ∴ 令 n → ∞ \therefore 令n\rightarrow\infty ∴令n→∞,则可近似成二项分布,出现车辆数为k的概率是 P ( X = k ) = lim ⁡ n → ∞ ( k n ) ( λ n ) k ( 1 − λ n ) n − k = … ( 分 解 + 求 极 限 ) = λ k e − λ k ! P(X=k)=\lim_{n\rightarrow\infty}(_k^n)(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\ldots(分解+求极限)=\frac{\lambda^ke^{-\lambda}}{k!} P(X=k)=n→∞lim​(kn​)(nλ​)k(1−nλ​)n−k=…(分解+求极限)=k!λke−λ​

概念9:大数定律(the law of large numbers)
  1. 大数定律是指:样本量足够大时,样本均值趋近于随机变量的期望值。
概念10:正态分布/高斯分布(normal distribution)
  1. 概率密度函数形如钟形曲线。概率密度函数如下:

    p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} p(x)=σ2π

    ​1​e−21​(σx−μ​)2

    二项分布中试验次数足够大时类似于正态分布。“()”中的内容称为“标准Z分数”,表示x距总体均值几倍标准差。

  2. μ \mu μ与 σ \sigma σ参数对概率密度曲线形状的影响

    当 μ \mu μ大于0时,整体右移, μ \mu μ小于0时,整体左移。

    σ \sigma σ越大,曲线越矮胖, σ \sigma σ越小,曲线越矮胖。

  3. 概率计算

    P ( x 1 &lt; x &lt; x 2 ) = ∫ x 1 x 2 p ( x ) d x P(x_1&lt;x&lt;x_2)=\int_{x_1}^{x_2}p(x)d_x P(x1​<x<x2​)=∫x1​x2​​p(x)dx​

    概率其实就是钟形曲线下对应区间的面积。

概念11:累积分布函数(CDF)
  1. 函数形式

    C D F ( x ) = ∫ − ∞ x p ( x ) d x CDF(x)=\int_{-\infty}^xp(x)d_x CDF(x)=∫−∞x​p(x)dx​

    有些地方用 F X ( x ) F_X(x) FX​(x)来表示累积分布函数。

  2. 函数性质

    F X ( + ∞ ) = 1 F_X(+\infty)=1 FX​(+∞)=1

    F X ( − ∞ ) = 0 F_X(-\infty)=0 FX​(−∞)=0

  3. EXCEL计算函数

    n o r m d i s t ( x , μ , σ , f l a g ) normdist(x,\mu,\sigma,flag) normdist(x,μ,σ,flag),flag参数表示是否累积分布,如果不是累积分布,则为false。

概念12:中心极限定理(the central limit theorem)
  1. 内容:抛掷足够多次硬币,每次抛掷相互独立。设随机变量X当正面朝上时为1,正面朝下时为0。则当试验次数趋近无穷大时,随机变量的和趋近于正态分布。
概念13:正态分布相关问题
  1. 要学会判断是否为正态分布
  2. 计算标准Z分数:

    Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ​

    标准Z分数可通过查标准正态分布表 ϕ \phi ϕ获得。

    注意

    :假设检验、区间估计中标准Z分数用得特别多, 3 σ 3\sigma 3σ是一个比较突出的位置,要多理解。
  3. 经验法则(68-95-99.7法则)

    指对于正态分布来说,有68%的数据处于离均值1倍标准差以内,有95%的数据处于离均值2倍标准差以内,有99.7%的数据处于离均值3倍标准差以内。