$5 大数定律和中心极限定理

$5.1大数定律

依概率收敛

设 { X n } \{X_n\} {Xn}为一随机变量序列， X X X为一随机变量或常数，若对 ∀ ϵ > 0 \forall \epsilon > 0 ∀ϵ>0，有

lim ⁡ n → ∞ P { ∣ X n − X ∣ < ϵ } = 1 \lim\limits_{n\to\infin} P\{|X_n-X|<\epsilon\} = 1 n→∞limP{∣Xn−X∣<ϵ}=1

则称 { X n } \{X_n\} {Xn}依概率收敛于 X X X,记为 X n ⟶ P X X_n\overset{P}{\longrightarrow}X Xn⟶PX 或 X n − X ⟶ P 0 ( n → ∞ ) X_n-X\overset{P}{\longrightarrow}0\ (n\rightarrow\infin) Xn−X⟶P0 (n→∞).

伯努利（Bernoulli）大数定律

n次独立重复试验中，只要独立重复试验的次数n充分大，结合实际推断原理，知：

可以用事件的频率来代替事件的概率。

lim ⁡ n → ∞ P { ∣ n A n − p ∣ < ϵ } = 1 \lim\limits_{n\to\infin} P\{|\frac{n_A}{n}-p|<\epsilon\} = 1 n→∞limP{∣nnA−p∣<ϵ}=1 或

lim ⁡ n → ∞ P { ∣ n A n − p ∣ ≥ ϵ } = 0 \lim\limits_{n\to\infin} P\{|\frac{n_A}{n}-p|\geq\epsilon\} = 0 n→∞limP{∣nnA−p∣≥ϵ}=0 .

切比雪夫（Chebyshev）大数定律

① 设随机变量序列 X 1 , X 2 , . . . , X n 相互独立 ; ② 具有相同的数学期望和方差 . E ( X k ) = μ , D ( X k ) = σ 2 , k = 1 , 2 , . . . 则 ∀ ϵ > 0 有 : ①设随机变量序列X_1,X_2,...,X_n相互独立;\\②具有相同的数学期望和方差.\\E(X_k) = \mu,D(X_k) = \sigma^2,k=1,2,...\\则\forall \epsilon > 0有: ①设随机变量序列X1,X2,...,Xn相互独立;②具有相同的数学期望和方差.E(Xk)=μ,D(Xk)=σ2,k=1,2,...则∀ϵ>0有:

lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ ≥ ϵ } = 0 \lim\limits_{n\to\infin} P\{\bigg|\frac{1}{n}\sum\limits_{k=1}^nX_k-\mu\bigg|\geq\epsilon\} = 0 n→∞limP{∣∣∣∣n1k=1∑nXk−μ∣∣∣∣≥ϵ}=0 或

lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 \lim\limits_{n\to\infin} P\{\bigg|\frac{1}{n}\sum\limits_{k=1}^nX_k-\mu\bigg|<\epsilon\} = 1 n→∞limP{∣∣∣∣n1k=1∑nXk−μ∣∣∣∣<ϵ}=1.

辛钦大数定律（弱大数定律）

① 设随机变量序列 X 1 , X 2 , . . . , X n 独立同分布 ; ② 数学期望 E ( X k ) = μ , k = 1 , 2 , . . . 则 ∀ ϵ > 0 有 : lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 即 X ‾ ⟶ P μ . ①设随机变量序列X_1,X_2,...,X_n独立同分布;\\②数学期望E(X_k) = \mu,k=1,2,...\\则\forall \epsilon > 0有:\\\lim\limits_{n\to\infin} P\{\bigg|\frac{1}{n}\sum\limits_{k=1}^nX_k-\mu\bigg|<\epsilon\} = 1\\即\overline{X}\overset{P}{\longrightarrow}\mu. ①设随机变量序列X1,X2,...,Xn独立同分布;②数学期望E(Xk)=μ,k=1,2,...则∀ϵ>0有:n→∞limP{∣∣∣∣n1k=1∑nXk−μ∣∣∣∣<ϵ}=1即X⟶Pμ.

*注：

辛钦大数定律较切比雪夫大数定律弱，不要求随机变量的方差存在。
伯努利大数定律是辛钦定理的特殊情况。

$5.2中心极限定理

在实际问题中许多随机变量是由相互独立随机因素的综合（或和）影响所形成的.

如果一个随机变量是由大量相互独立的随机因素的综合影响所造成，而每一个别因素对这种综合影响中所起的作用不大. 则这种随机变量一般都服从或近似服从正态分布.

在概率论中，习惯于把和的分布收敛于正态分布这一类定理都叫做中心极限定理.

林德贝格-列维中心极限定理(独立同分布的中心极限定理)

① 设随机变量序列 X 1 , X 2 , . . . , X n 相互独立 ; ② 具有相同的数学期望和方差 . E ( X k ) = μ , D ( X k ) = σ 2 , k = 1 , 2 , . . . 则随机变量之和 ∑ k = 1 n X k 的标准化变量 Y n = ∑ k = 1 n X k − n μ n σ , ∀ x , 满足 ①设随机变量序列X_1,X_2,...,X_n相互独立;\\②具有相同的数学期望和方差.\\E(X_k) = \mu,D(X_k) = \sigma^2,k=1,2,...\\则随机变量之和\sum\limits_{k=1}^nX_k的标准化变量\\Y_n= \frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}, \forall x,满足 ①设随机变量序列X1,X2,...,Xn相互独立;②具有相同的数学期望和方差.E(Xk)=μ,D(Xk)=σ2,k=1,2,...则随机变量之和k=1∑nXk的标准化变量Yn=n

σk=1∑nXk−nμ,∀x,满足

lim ⁡ n → ∞ P { ∑ k = 1 n X k − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 2 d t = Φ ( x ) 且 ∑ k = 1 n X k ∼ 近似地 N ( n μ , n σ 2 ) ∑ k = 1 n X k − n μ n σ ∼ 近似地 N ( 0 , 1 ) 或 X ‾ = 1 n ∑ k = 1 n X k X ‾ ∼ 近似地 N ( μ , σ 2 n ) X ‾ − μ σ / n ∼ 近似地 N ( 0 , 1 ) \lim\limits_{n\to\infin} P\bigg\{\frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\leq x\bigg\} = \int_{-\infin}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=Φ(x)\\ 且\\ \sum\limits_{k=1}^nX_k\overset{近似地}{\sim}N(n\mu,n\sigma^2)\\ \frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\overset{近似地}{\sim}N(0,1)\\ 或\\ \overline{X} = \frac{1}{n}\sum\limits_{k=1}^nX_k\\ \overline{X}\overset{近似地}{\sim}N(\mu,\frac{\sigma^2}{n})\\ \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\overset{近似地}{\sim}N(0,1) n→∞limP{n

σk=1∑nXk−nμ≤x}=∫−∞x2π

1e−2t2dt=Φ(x)且k=1∑nXk∼近似地N(nμ,nσ2)n

σk=1∑nXk−nμ∼近似地N(0,1)或X=n1k=1∑nXkX∼近似地N(μ,nσ2)σ/n

X−μ∼近似地N(0,1)

李雅普诺夫（Lyapunov）定理（独立不同分布的中心极限定理）

① 设随机变量序列 X 1 , X 2 , . . . , X n 相互独立 ; ② 具有数学期望和方差如下 E ( X k ) = μ k , D ( X k ) = σ k 2 , k = 1 , 2 , . . . 记 B n 2 = ∑ k = 1 n σ k 2 . 若 ∃ δ > 0 , 使得当 n → ∞ 时， ①设随机变量序列X_1,X_2,...,X_n相互独立;\\②具有数学期望和方差如下\\E(X_k) = \mu_k,D(X_k) = \sigma_k^2,k=1,2,...\\记B_n^2=\sum\limits_{k=1}^n\sigma_k^2.\\若\exist\delta>0,使得当n\rightarrow\infin时， ①设随机变量序列X1,X2,...,Xn相互独立;②具有数学期望和方差如下E(Xk)=μk,D(Xk)=σk2,k=1,2,...记Bn2=k=1∑nσk2.若∃δ>0,使得当n→∞时，

1 B n 2 + δ ∑ k = 1 n E { ∣ X k − μ k ∣ 2 + δ } → 0 , \frac{1}{B_n^{2+\delta}}\sum\limits_{k=1}^nE\big\{|X_k-\mu_k|^{2+\delta}\big\}\rightarrow0, Bn2+δ1k=1∑nE{∣Xk−μk∣2+δ}→0,

则随机变量之和 ∑ k = 1 n X k 的标准化变量则随机变量之和\sum\limits_{k=1}^nX_k的标准化变量则随机变量之和k=1∑nXk的标准化变量

Z n = ∑ k = 1 n X k − E ( ∑ k = 1 n X k ) D ( ∑ k = 1 n X k ) = ∑ k = 1 n X k − ∑ k = 1 n μ k B n , Z_n= \frac{\sum\limits_{k=1}^nX_k-E(\sum\limits_{k=1}^nX_k)}{\sqrt{D(\sum\limits_{k=1}^nX_k)}}=\frac{\sum\limits_{k=1}^nX_k-\sum\limits_{k=1}^n\mu_k}{B_n}, Zn=D(k=1∑nXk)

k=1∑nXk−E(k=1∑nXk)=Bnk=1∑nXk−k=1∑nμk,

∀ x , 满足 \forall x,满足 ∀x,满足

lim ⁡ n → ∞ P { ∑ k = 1 n X k − ∑ k = 1 n μ k B n ≤ x } = ∫ − ∞ x 1 2 π e − t 2 2 d t = Φ ( x ) 且 ∑ k = 1 n X k ∼ 近似地 N ( ∑ k = 1 n μ k , B n 2 ) Z n ∼ 近似地 N ( 0 , 1 ) \lim\limits_{n\to\infin} P\bigg\{\frac{\sum\limits_{k=1}^nX_k-\sum\limits_{k=1}^n\mu_k}{B_n}\leq x\bigg\} = \int_{-\infin}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=Φ(x)\\ 且\\ \sum\limits_{k=1}^nX_k\overset{近似地}{\sim}N(\sum\limits_{k=1}^n\mu_k,B_n^2)\\ Z_n\overset{近似地}{\sim}N(0,1) n→∞limP{Bnk=1∑nXk−k=1∑nμk≤x}=∫−∞x2π

1e−2t2dt=Φ(x)且k=1∑nXk∼近似地N(k=1∑nμk,Bn2)Zn∼近似地N(0,1)

棣莫弗—拉普拉斯定理(二项分布的中心极限定理)

设 η n ( n = 1 , 2 , . . . ) 服从参数为 n , p ( 0 < p < 1 ) 的二项分布，则对 ∀ x , 设\eta_n(n=1,2,...)服从参数为n,p(0<p<1)的二项分布，则对\forall x, 设ηn(n=1,2,...)服从参数为n,p(0<p<1)的二项分布，则对∀x,

lim ⁡ n → ∞ P { η n − n p n p ( 1 − p ) ≤ x } = ∫ − ∞ x 1 2 π e − t 2 2 d t = Φ ( x ) \lim\limits_{n\to\infin} P\bigg\{\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x\bigg\} = \int_{-\infin}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt =Φ(x) n→∞limP{np(1−p)

ηn−np≤x}=∫−∞x2π

1e−2t2dt=Φ(x)

且

P { a < X < b } ≈ Φ ( b − n p n p q ) − Φ ( a − n p n p q ) , w h e r e q = 1 − p P\{a<X<b\}\approxΦ(\frac{b-np}{\sqrt{npq}})-Φ(\frac{a-np}{\sqrt{npq}}),where\ q=1-p P{a<X<b}≈Φ(npq

b−np)−Φ(npq

a−np),where q=1−p

P { X = k } ≈ 1 2 π n p q e − ( k − n p ) 2 2 n p q = 1 n p q φ ( k − n p n p q ) P\{X=k\}\approx\frac{1}{\sqrt{2\pi npq}}e^{-\frac{(k-np)^2}{2npq}}=\frac{1}{\sqrt{npq}}\varphi(\frac{k-np}{\sqrt{npq}}) P{X=k}≈2πnpq

1e−2npq(k−np)2=npq

1φ(npq

k−np)

*注：

正态分布与泊松分布都是二项分布的极限分布，但是
- 泊松分布要求： n → ∞ , p → 0 , n p → λ n\rightarrow\infin,p\rightarrow0,np\rightarrow\lambda n→∞,p→0,np→λ
- 棣莫弗—拉普拉斯定理要求： n → ∞ n\rightarrow\infin n→∞
由于二项分布是离散分布，而正态分布是连续分布，

所以用正态分布作为二项分布的近似时，可作修正：

P { a − 0.5 < X < b + 0.5 } ≈ Φ ( b + 0.5 − n p n p q ) − Φ ( a − 0.5 − n p n p q ) , w h e r e q = 1 − p P\{a-0.5<X<b+0.5\}\approxΦ(\frac{b+0.5-np}{\sqrt{npq}})-Φ(\frac{a-0.5-np}{\sqrt{npq}}),where\ q=1-p P{a−0.5<X<b+0.5}≈Φ(npq

b+0.5−np)−Φ(npq

a−0.5−np),where q=1−p

$5 大数定律和中心极限定理$5 大数定律和中心极限定理

$5 大数定律和中心极限定理

$5.1大数定律

依概率收敛

伯努利（Bernoulli）大数定律

切比雪夫（Chebyshev）大数定律

辛钦大数定律（弱大数定律）

$5.2中心极限定理

林德贝格-列维中心极限定理(独立同分布的中心极限定理)

李雅普诺夫（Lyapunov）定理（独立不同分布的中心极限定理）

棣莫弗—拉普拉斯定理(二项分布的中心极限定理)

$5.3中心极限定理的应用

已知n和y，求概率

已知n和概率，求y

已知y和概率，求n

继续阅读

聊聊生日悖论和生日攻击

数理统计与描述性分析

【机器学习】为什么回归问题用 MSE？

二项分布与负二项分布卡片二项分布负二项分布示例

拓端tecdat|R语言辅导t检验和非正态性的鲁棒性

【优化充电】遗传算法求解电动汽车充电管理优化问题【Matlab 1178期】

Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法

Human-level concept learning through probabilistic program induction

交叉熵损失函数二元交叉熵损失函数多元交叉熵函数详解

交叉熵损失函数原理和推导

模糊综合评价模型一.概述二.经典集合和模糊集合的基本概念三.隶属函数的三种确定方法四.应用：模糊综合评价

泛统计理论初探——模型评估的验证策略数据挖掘-模型验证策略简介

NILMTK——因子隐马尔可夫之隐马尔可夫1. 马尔可夫链2.马尔可夫模型3. 隐马尔可夫模型4.HMM三种方式的实现5. hmmlearn应用

GMS：基于网格运动统计的快速极度鲁棒的特征匹配摘要1 简介2 本文的方法3 应用于快速记分的网格框架4 实验 5 结论

4 概率机器人 Probabilistic Robotics 扩展卡尔曼滤波算法1 前提介绍2 通过泰勒展式进行线性化3 扩展卡尔曼滤波算法（EKF）4 扩展卡尔曼滤波实例5 扩展卡尔曼滤波（EKF）公式推导6 扩展卡尔曼滤波的优缺点7 参考文献

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法