统计学基础知识点刷题（task1）

参考视频：可汗学院《统计学》

参考书籍：《深入浅出统计学》

笔记内容

概念1:样本和总体

样本均值与总体均值

样本均值用 X X X表示，总体均值用 μ \mu μ表示，计算方式如下：

X = ( ∑ i = 1 n x i ) / n X=(\sum_{i=1}^nx_i)/n X=(i=1∑nxi)/n

μ = ( ∑ i = 1 N x i ) / N μ=(\sum_{i=1}^Nx_i)/N μ=(i=1∑Nxi)/N

个人理解:

此处 x i x_i xi表示观测值，而 X i X_i Xi表示随机变量，二者是不同的，书写时要注意。

N表示总体的数目，而n<N，表示样本数目。

可以将总体理解为一个大的集合，而样本是能够在一定程度上表示该集合的子集（这一点与信息论里面的 典型集 概念很像）。当然，并不是任意样本都能表示总体，必须是随机采样而来的才行。

概念2：总体方差与样本方差

表征意义

均值、众数和中位数等指标用于表征数据的偏移，还需要方差（variance）用于表征数据的离散分布，体现数据的分散（dispersion）程度。
计算方式

总体方差一般用 σ 2 \sigma^2 σ2来表示，计算公式如下：

σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N σ2=(i=1∑N(xi−μ)2)/N

样本方差一般用 S 2 S^2 S2来表示，计算公式如下：

S 2 = ( ∑ i = 1 n ( x i − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n(x_i−\overline{x})^2)/(n−1) S2=(i=1∑n(xi−x)2)/(n−1)
上式被称为“总体方差的无偏估计”

个人理解:

按照总体方差的计算公式来看，样本方差的计算公式按理来说分母应该是n，为什么此处是(?−1)呢？

（1）对于抽样样本来说，其样本均值往往并不是靠近总体均值，而是靠近样本的中心，这样会导致分子（平方和）偏小，如果还是用分母为n的公式计算，将会导致样本方差偏小（用于估计总体方差时会偏小）。

（2）也可理解为样本均值x包含了一个信息自由度（通过n-1个样本及x即可确定剩下的xn,所以实际自由度为n-1），因而对应的分母应该为n-1。

关于偏差（bias）和方差（variance）的权衡在机器学习中很常见（trade-off）。训练集过拟合就会低偏差高方差，模型泛化能力差，而欠拟合一般会造成高偏差低方差（高偏差高方差也有可能），具体细节可参考深度学习吴恩达相关课程。

概念3：标准差

为什么有了方差还需要标准差？

因为方差的单位与原始数据单位相比多了一个平方，而标准差与原始数据单位量级相同，便于计算。标准差还可帮助计算数据点落在距离均值数倍标准差之内的概率。
计算公式

σ = σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N(x_i−μ)^2)/N } σ=σ2

=(i=1∑N(xi−μ)2)/N
公式推导

σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N = 1 N ∑ i = 1 N ( x i 2 − 2 μ ∗ x i + μ 2 ) = 1 N ( ∑ i = 1 N x i 2 − 2 μ ∑ i = 1 N x i + ∑ i = 1 N μ 2 ) = 1 N ∑ i = 1 N x i 2 − 2 μ 2 + μ 2 = 1 N ∑ i = 1 N x i 2 − μ 2 \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N=\frac{1}{N}\sum_{i=1}^N(x_i^2−2μ∗x_i+μ^2)=\frac{1}{N}(\sum_{i=1}^Nx_i^2−2μ\sum_{i=1}^Nx_i+\sum_{i=1}^Nμ^2)=\frac{1}{N}\sum_{i=1}^Nx_i^2−2μ^2+μ^2=\frac{1}{N}\sum_{i=1}^Nx_i^2−μ^2 σ2=(i=1∑N(xi−μ)2)/N=N1i=1∑N(xi2−2μ∗xi+μ2)=N1(i=1∑Nxi2−2μi=1∑Nxi+i=1∑Nμ2)=N1i=1∑Nxi2−2μ2+μ2=N1i=1∑Nxi2−μ2

概念4：随机变量（Random variable）

像是从随机过程映射到数值的函数，如用随机变量 X X X表示明天是否下雨，则表达式如下：

X = { 1 下雨 0 不下雨 X= \begin{cases} 1& \text{下雨}\\ 0& \text{不下雨} \end{cases} X={10下雨不下雨

实质上就是一个函数映射的过程。
随机变量分为离散型随机变量和连续型随机变量,离散型随机变量对应分布律，连续性随机变量对应概率密度函数。

随机变量包括 { 离散型随机变量（有穷）连续型随机变量（无穷）随机变量包括 \begin{cases} 离散型随机变量（有穷）\\ 连续型随机变量（无穷） \end{cases} 随机变量包括{离散型随机变量（有穷）连续型随机变量（无穷）

概念5：概率密度函数

概率密度函数用于反映连续型随机变量的分布，对应概率密度曲线，曲线下相应区间的面积即为所在区间对应的概率。

P ( 1 < X < 3 ) = ∫ 1 3 f X ( x ) d x P(1<X<3)=\int_{1}^{3}f_X(x)d_x P(1<X<3)=∫13fX(x)dx
离散型随机随机变量反映在分布上式离散的柱状图形式，而不是连续曲线。

注意：

(1) P ( Y = 2 ) = 0 P(Y=2)=0 P(Y=2)=0,连续随机变量在任意某一点的概率为0，我们只能说 P ( ∣ Y − 2 ∣ ) < α P(|Y-2|)<\alpha P(∣Y−2∣)<α类似的形式。

(2)随机变量的全部可能结果的出现概率之和为1,即概率密度曲线下的面积为1。

概念6：二项分布（Binomial Distribution）

典型过程：随机投掷筛子若干次（比如5次），出现正面朝上的概率即服从二项分布，表示为 X 服从 N ( 5 ， p ) X服从N(5，p) X服从N(5，p)。出现k次正面朝上的概率为: P ( X = k ) = C n k ( 1 2 ) k ∗ ( 1 2 ) n − k P(X=k)=C_n^k(\frac{1}{2})^k*(\frac{1}{2})^{n-k} P(X=k)=Cnk(21)k∗(21)n−k，该概率与二项式 ( 1 2 + 1 2 ) n (\frac{1}{2}+\frac{1}{2})^n (21+21)n有关,将该二项式分解即可得概率。
二项分布可视为若干次独立伯努利实验。当n足够大时，趋近于正态分布。泊松分布可以看成是二项分布的极限，假设泊松分布参数 λ = n p \lambda=np λ=np，当二项分布n足够大、p足够小时，可用泊松分布的概率来模拟二项分布。
二项分布的期望与方差

E ( X ) = n p E(X)=np E(X)=np

D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)
Excel求解二项式系数

主要是采用fact函数求阶乘。

概念7：期望(Expectation)

随机变量的期望实际上就是总体的均值，它只是针对总体不确定或太大的情况下采用的一种变通的求解方式（变通之处在于不是求和取平均，而是采用结果加权求和的方式）。
计算方式

E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1∑nxipi
二项分布期望推导

E ( X ) = ∑ i = 1 n i ∗ C n i p i ( 1 − p ) n − i = ∑ i = 1 n i ∗ n ! i ! ∗ ( n − i ) ! ∗ p i ∗ ( 1 − p ) n − i = … = n p E(X)=\sum_{i=1}^ni*C_n^ip^i(1-p)^{n-i}=\sum_{i=1}^n{\frac{i*n!}{i!*(n-i)!}*p^i*(1-p)^{n-i}}=\ldots=np E(X)=i=1∑ni∗Cnipi(1−p)n−i=i=1∑ni!∗(n−i)!i∗n!∗pi∗(1−p)n−i=…=np

推导具体过程：二项分布的期望

概念8：泊松过程（Poison）

典型过程：任一时刻通过街上某一点的车辆数

假设1：街上此点任意时刻的车流量没有差异

假设2：一段时间的车流量对另一段时间的车流量没有影响
泊松分布其实就是来源于二项分布，是二项分布当n趋近于无穷大（将连续时间等分为无穷多个区间，保证每一区间内最多只有一个结果，如此便可视为二项分布）的极限形式。
公式推导

∵ E ( X ) = λ = n p \because E(X)=\lambda=np ∵E(X)=λ=np

∴ p = λ n \therefore p=\frac{\lambda}{n} ∴p=nλ

∴ 令 n → ∞ \therefore 令n\rightarrow\infty ∴令n→∞,则可近似成二项分布，出现车辆数为k的概率是 P ( X = k ) = lim ⁡ n → ∞ ( k n ) ( λ n ) k ( 1 − λ n ) n − k = … ( 分解 + 求极限 ) = λ k e − λ k ! P(X=k)=\lim_{n\rightarrow\infty}(_k^n)(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\ldots(分解+求极限)=\frac{\lambda^ke^{-\lambda}}{k!} P(X=k)=n→∞lim(kn)(nλ)k(1−nλ)n−k=…(分解+求极限)=k!λke−λ

概念9：大数定律（the law of large numbers）

大数定律是指：样本量足够大时，样本均值趋近于随机变量的期望值。

概念10：正态分布/高斯分布（normal distribution）

概率密度函数形如钟形曲线。概率密度函数如下：

p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} p(x)=σ2π

1e−21(σx−μ)2

二项分布中试验次数足够大时类似于正态分布。“（）”中的内容称为“标准Z分数”，表示x距总体均值几倍标准差。
μ \mu μ与 σ \sigma σ参数对概率密度曲线形状的影响

当 μ \mu μ大于0时，整体右移， μ \mu μ小于0时，整体左移。

σ \sigma σ越大，曲线越矮胖， σ \sigma σ越小，曲线越矮胖。
概率计算

P ( x 1 < x < x 2 ) = ∫ x 1 x 2 p ( x ) d x P(x_1<x<x_2)=\int_{x_1}^{x_2}p(x)d_x P(x1<x<x2)=∫x1x2p(x)dx

概率其实就是钟形曲线下对应区间的面积。

概念11：累积分布函数（CDF）

函数形式

C D F ( x ) = ∫ − ∞ x p ( x ) d x CDF(x)=\int_{-\infty}^xp(x)d_x CDF(x)=∫−∞xp(x)dx

有些地方用 F X ( x ) F_X(x) FX(x)来表示累积分布函数。
函数性质

F X ( + ∞ ) = 1 F_X(+\infty)=1 FX(+∞)=1

F X ( − ∞ ) = 0 F_X(-\infty)=0 FX(−∞)=0
EXCEL计算函数

n o r m d i s t ( x , μ , σ , f l a g ) normdist(x,\mu,\sigma,flag) normdist(x,μ,σ,flag),flag参数表示是否累积分布，如果不是累积分布，则为false。

概念12：中心极限定理（the central limit theorem）

内容：抛掷足够多次硬币，每次抛掷相互独立。设随机变量X当正面朝上时为1，正面朝下时为0。则当试验次数趋近无穷大时，随机变量的和趋近于正态分布。

概念13：正态分布相关问题

要学会判断是否为正态分布
计算标准Z分数：

Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ

标准Z分数可通过查标准正态分布表 ϕ \phi ϕ获得。
注意 ：假设检验、区间估计中标准Z分数用得特别多， 3 σ 3\sigma 3σ是一个比较突出的位置，要多理解。
经验法则（68-95-99.7法则）

指对于正态分布来说，有68%的数据处于离均值1倍标准差以内，有95%的数据处于离均值2倍标准差以内，有99.7%的数据处于离均值3倍标准差以内。

统计学基础知识点刷题（task1）

笔记内容

概念1:样本和总体

概念2：总体方差与样本方差

概念3：标准差

概念4：随机变量（Random variable）

概念5：概率密度函数

概念6：二项分布（Binomial Distribution）

概念7：期望(Expectation)

概念8：泊松过程（Poison）

概念9：大数定律（the law of large numbers）

概念10：正态分布/高斯分布（normal distribution）

概念11：累积分布函数（CDF）

概念12：中心极限定理（the central limit theorem）

概念13：正态分布相关问题

继续阅读

高斯混合模型GMM（Gaussian Mixture Model）

SPSS学习笔记（四）非参数检验一、配对：Wilcoxon符号-秩检验二、独立样本：Mann-Whitney U检验三、单因素ANOVA：Kruskal-Wallis检验

CRF介绍（转自知乎）

Restricted cubic splines

数据分析系列：Z 检验和 T 检验的应用及代码实现

数据的变量类型及其之间的关系

《商务与经济统计》学习笔记(五)-点估计和区间估计

二项分布和多项分布

统计学基础知识点刷题（task2）

统计学基础知识点刷题（task3）

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

Adaboost的原理、推导与实例

基于观测变量的调节效应分析

比特币下跌与加密货币的联动效应（附代码）

建模笔记——标准化和归一化标准化和归一化的区别