参考视频:可汗学院《统计学》
参考书籍:《深入浅出统计学》
笔记内容
概念1:样本和总体
-
样本均值与总体均值
样本均值用 X X X表示,总体均值用 μ \mu μ表示,计算方式如下:
X = ( ∑ i = 1 n x i ) / n X=(\sum_{i=1}^nx_i)/n X=(i=1∑nxi)/n
μ = ( ∑ i = 1 N x i ) / N μ=(\sum_{i=1}^Nx_i)/N μ=(i=1∑Nxi)/N
个人理解:
- 此处 x i x_i xi表示观测值,而 X i X_i Xi表示随机变量,二者是不同的,书写时要注意。
- N表示总体的数目,而n<N,表示样本数目。
- 可以将总体理解为一个大的集合,而样本是能够在一定程度上表示该集合的子集(这一点与信息论里面的
概念很像)。当然,并不是任意样本都能表示总体,必须是随机采样而来的才行。
典型集
概念2:总体方差与样本方差
-
表征意义
均值、众数和中位数等指标用于表征数据的偏移,还需要方差(variance)用于表征数据的离散分布,体现数据的分散(dispersion)程度。
-
计算方式
总体方差一般用 σ 2 \sigma^2 σ2来表示,计算公式如下:
σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N σ2=(i=1∑N(xi−μ)2)/N
样本方差一般用 S 2 S^2 S2来表示,计算公式如下:
S 2 = ( ∑ i = 1 n ( x i − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n(x_i−\overline{x})^2)/(n−1) S2=(i=1∑n(xi−x)2)/(n−1)
上式被称为“总体方差的无偏估计”
个人理解:
按照总体方差的计算公式来看,样本方差的计算公式按理来说分母应该是n,为什么此处是(?−1)呢?
(1)对于抽样样本来说,其样本均值往往并不是靠近总体均值,而是靠近样本的中心,这样会导致分子(平方和)偏小,如果还是用分母为n的公式计算,将会导致样本方差偏小(用于估计总体方差时会偏小)。
(2)也可理解为样本均值x包含了一个信息自由度(通过n-1个样本及x即可确定剩下的xn,所以实际自由度为n-1),因而对应的分母应该为n-1。
关于偏差(bias)和方差(variance)的权衡在机器学习中很常见(trade-off)。训练集过拟合就会低偏差高方差,模型泛化能力差,而欠拟合一般会造成高偏差低方差(高偏差高方差也有可能),具体细节可参考深度学习吴恩达相关课程。
概念3:标准差
-
为什么有了方差还需要标准差?
因为方差的单位与原始数据单位相比多了一个平方,而标准差与原始数据单位量级相同,便于计算。标准差还可帮助计算数据点落在距离均值数倍标准差之内的概率。
-
计算公式
σ = σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N(x_i−μ)^2)/N } σ=σ2
=(i=1∑N(xi−μ)2)/N
-
公式推导
σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N = 1 N ∑ i = 1 N ( x i 2 − 2 μ ∗ x i + μ 2 ) = 1 N ( ∑ i = 1 N x i 2 − 2 μ ∑ i = 1 N x i + ∑ i = 1 N μ 2 ) = 1 N ∑ i = 1 N x i 2 − 2 μ 2 + μ 2 = 1 N ∑ i = 1 N x i 2 − μ 2 \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N=\frac{1}{N}\sum_{i=1}^N(x_i^2−2μ∗x_i+μ^2)=\frac{1}{N}(\sum_{i=1}^Nx_i^2−2μ\sum_{i=1}^Nx_i+\sum_{i=1}^Nμ^2)=\frac{1}{N}\sum_{i=1}^Nx_i^2−2μ^2+μ^2=\frac{1}{N}\sum_{i=1}^Nx_i^2−μ^2 σ2=(i=1∑N(xi−μ)2)/N=N1i=1∑N(xi2−2μ∗xi+μ2)=N1(i=1∑Nxi2−2μi=1∑Nxi+i=1∑Nμ2)=N1i=1∑Nxi2−2μ2+μ2=N1i=1∑Nxi2−μ2
概念4:随机变量(Random variable)
-
像是从随机过程映射到数值的函数,如用随机变量 X X X表示明天是否下雨,则表达式如下:
X = { 1 下雨 0 不下雨 X= \begin{cases} 1& \text{下雨}\\ 0& \text{不下雨} \end{cases} X={10下雨不下雨
实质上就是一个函数映射的过程。
-
随机变量分为离散型随机变量和连续型随机变量,离散型随机变量对应分布律,连续性随机变量对应概率密度函数。
随 机 变 量 包 括 { 离 散 型 随 机 变 量 ( 有 穷 ) 连 续 型 随 机 变 量 ( 无 穷 ) 随机变量包括 \begin{cases} 离散型随机变量 (有穷)\\ 连续型随机变量 (无穷) \end{cases} 随机变量包括{离散型随机变量(有穷)连续型随机变量(无穷)
概念5:概率密度函数
-
概率密度函数用于反映连续型随机变量的分布,对应概率密度曲线,曲线下相应区间的面积即为所在区间对应的概率。
P ( 1 < X < 3 ) = ∫ 1 3 f X ( x ) d x P(1<X<3)=\int_{1}^{3}f_X(x)d_x P(1<X<3)=∫13fX(x)dx
- 离散型随机随机变量反映在分布上式离散的柱状图形式,而不是连续曲线。
注意:
(1) P ( Y = 2 ) = 0 P(Y=2)=0 P(Y=2)=0,连续随机变量在任意某一点的概率为0,我们只能说 P ( ∣ Y − 2 ∣ ) < α P(|Y-2|)<\alpha P(∣Y−2∣)<α类似的形式。
(2)随机变量的全部可能结果的出现概率之和为1,即概率密度曲线下的面积为1。
概念6:二项分布(Binomial Distribution)
- 典型过程:随机投掷筛子若干次(比如5次),出现正面朝上的概率即服从二项分布,表示为 X 服 从 N ( 5 , p ) X服从N(5,p) X服从N(5,p)。出现k次正面朝上的概率为: P ( X = k ) = C n k ( 1 2 ) k ∗ ( 1 2 ) n − k P(X=k)=C_n^k(\frac{1}{2})^k*(\frac{1}{2})^{n-k} P(X=k)=Cnk(21)k∗(21)n−k,该概率与二项式 ( 1 2 + 1 2 ) n (\frac{1}{2}+\frac{1}{2})^n (21+21)n有关,将该二项式分解即可得概率。
- 二项分布可视为若干次独立伯努利实验。当n足够大时,趋近于正态分布。泊松分布可以看成是二项分布的极限,假设泊松分布参数 λ = n p \lambda=np λ=np,当二项分布n足够大、p足够小时,可用泊松分布的概率来模拟二项分布。
-
二项分布的期望与方差
E ( X ) = n p E(X)=np E(X)=np
D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)
-
Excel求解二项式系数
主要是采用fact函数求阶乘。
概念7:期望(Expectation)
- 随机变量的期望实际上就是总体的均值,它只是针对总体不确定或太大的情况下采用的一种变通的求解方式(变通之处在于不是求和取平均,而是采用结果加权求和的方式)。
-
计算方式
E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1∑nxipi
-
二项分布期望推导
E ( X ) = ∑ i = 1 n i ∗ C n i p i ( 1 − p ) n − i = ∑ i = 1 n i ∗ n ! i ! ∗ ( n − i ) ! ∗ p i ∗ ( 1 − p ) n − i = … = n p E(X)=\sum_{i=1}^ni*C_n^ip^i(1-p)^{n-i}=\sum_{i=1}^n{\frac{i*n!}{i!*(n-i)!}*p^i*(1-p)^{n-i}}=\ldots=np E(X)=i=1∑ni∗Cnipi(1−p)n−i=i=1∑ni!∗(n−i)!i∗n!∗pi∗(1−p)n−i=…=np
推导具体过程:二项分布的期望
概念8:泊松过程(Poison)
-
典型过程:任一时刻通过街上某一点的车辆数
假设1:街上此点任意时刻的车流量没有差异
假设2:一段时间的车流量对另一段时间的车流量没有影响
- 泊松分布其实就是来源于二项分布,是二项分布当n趋近于无穷大(将连续时间等分为无穷多个区间,保证每一区间内最多只有一个结果,如此便可视为二项分布)的极限形式。
-
公式推导
∵ E ( X ) = λ = n p \because E(X)=\lambda=np ∵E(X)=λ=np
∴ p = λ n \therefore p=\frac{\lambda}{n} ∴p=nλ
∴ 令 n → ∞ \therefore 令n\rightarrow\infty ∴令n→∞,则可近似成二项分布,出现车辆数为k的概率是 P ( X = k ) = lim n → ∞ ( k n ) ( λ n ) k ( 1 − λ n ) n − k = … ( 分 解 + 求 极 限 ) = λ k e − λ k ! P(X=k)=\lim_{n\rightarrow\infty}(_k^n)(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\ldots(分解+求极限)=\frac{\lambda^ke^{-\lambda}}{k!} P(X=k)=n→∞lim(kn)(nλ)k(1−nλ)n−k=…(分解+求极限)=k!λke−λ
概念9:大数定律(the law of large numbers)
- 大数定律是指:样本量足够大时,样本均值趋近于随机变量的期望值。
概念10:正态分布/高斯分布(normal distribution)
-
概率密度函数形如钟形曲线。概率密度函数如下:
p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} p(x)=σ2π
1e−21(σx−μ)2
二项分布中试验次数足够大时类似于正态分布。“()”中的内容称为“标准Z分数”,表示x距总体均值几倍标准差。
-
μ \mu μ与 σ \sigma σ参数对概率密度曲线形状的影响
当 μ \mu μ大于0时,整体右移, μ \mu μ小于0时,整体左移。
σ \sigma σ越大,曲线越矮胖, σ \sigma σ越小,曲线越矮胖。
-
概率计算
P ( x 1 < x < x 2 ) = ∫ x 1 x 2 p ( x ) d x P(x_1<x<x_2)=\int_{x_1}^{x_2}p(x)d_x P(x1<x<x2)=∫x1x2p(x)dx
概率其实就是钟形曲线下对应区间的面积。
概念11:累积分布函数(CDF)
-
函数形式
C D F ( x ) = ∫ − ∞ x p ( x ) d x CDF(x)=\int_{-\infty}^xp(x)d_x CDF(x)=∫−∞xp(x)dx
有些地方用 F X ( x ) F_X(x) FX(x)来表示累积分布函数。
-
函数性质
F X ( + ∞ ) = 1 F_X(+\infty)=1 FX(+∞)=1
F X ( − ∞ ) = 0 F_X(-\infty)=0 FX(−∞)=0
-
EXCEL计算函数
n o r m d i s t ( x , μ , σ , f l a g ) normdist(x,\mu,\sigma,flag) normdist(x,μ,σ,flag),flag参数表示是否累积分布,如果不是累积分布,则为false。
概念12:中心极限定理(the central limit theorem)
- 内容:抛掷足够多次硬币,每次抛掷相互独立。设随机变量X当正面朝上时为1,正面朝下时为0。则当试验次数趋近无穷大时,随机变量的和趋近于正态分布。
概念13:正态分布相关问题
- 要学会判断是否为正态分布
-
计算标准Z分数:
Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ
标准Z分数可通过查标准正态分布表 ϕ \phi ϕ获得。
:假设检验、区间估计中标准Z分数用得特别多, 3 σ 3\sigma 3σ是一个比较突出的位置,要多理解。注意
-
经验法则(68-95-99.7法则)
指对于正态分布来说,有68%的数据处于离均值1倍标准差以内,有95%的数据处于离均值2倍标准差以内,有99.7%的数据处于离均值3倍标准差以内。