參考視訊:可汗學院《統計學》
參考書籍:《深入淺出統計學》
筆記内容
概念1:樣本和總體
-
樣本均值與總體均值
樣本均值用 X X X表示,總體均值用 μ \mu μ表示,計算方式如下:
X = ( ∑ i = 1 n x i ) / n X=(\sum_{i=1}^nx_i)/n X=(i=1∑nxi)/n
μ = ( ∑ i = 1 N x i ) / N μ=(\sum_{i=1}^Nx_i)/N μ=(i=1∑Nxi)/N
個人了解:
- 此處 x i x_i xi表示觀測值,而 X i X_i Xi表示随機變量,二者是不同的,書寫時要注意。
- N表示總體的數目,而n<N,表示樣本數目。
- 可以将總體了解為一個大的集合,而樣本是能夠在一定程度上表示該集合的子集(這一點與資訊論裡面的
概念很像)。當然,并不是任意樣本都能表示總體,必須是随機采樣而來的才行。
典型集
概念2:總體方差與樣本方差
-
表征意義
均值、衆數和中位數等名額用于表征資料的偏移,還需要方差(variance)用于表征資料的離散分布,展現資料的分散(dispersion)程度。
-
計算方式
總體方差一般用 σ 2 \sigma^2 σ2來表示,計算公式如下:
σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N σ2=(i=1∑N(xi−μ)2)/N
樣本方差一般用 S 2 S^2 S2來表示,計算公式如下:
S 2 = ( ∑ i = 1 n ( x i − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n(x_i−\overline{x})^2)/(n−1) S2=(i=1∑n(xi−x)2)/(n−1)
上式被稱為“總體方差的無偏估計”
個人了解:
按照總體方差的計算公式來看,樣本方差的計算公式按理來說分母應該是n,為什麼此處是(?−1)呢?
(1)對于抽樣樣本來說,其樣本均值往往并不是靠近總體均值,而是靠近樣本的中心,這樣會導緻分子(平方和)偏小,如果還是用分母為n的公式計算,将會導緻樣本方差偏小(用于估計總體方差時會偏小)。
(2)也可了解為樣本均值x包含了一個資訊自由度(通過n-1個樣本及x即可确定剩下的xn,是以實際自由度為n-1),因而對應的分母應該為n-1。
關于偏差(bias)和方差(variance)的權衡在機器學習中很常見(trade-off)。訓練集過拟合就會低偏差高方差,模型泛化能力差,而欠拟合一般會造成高偏差低方差(高偏差高方差也有可能),具體細節可參考深度學習吳恩達相關課程。
概念3:标準差
-
為什麼有了方差還需要标準差?
因為方差的機關與原始資料機關相比多了一個平方,而标準差與原始資料機關量級相同,便于計算。标準差還可幫助計算資料點落在距離均值數倍标準差之内的機率。
-
計算公式
σ = σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N(x_i−μ)^2)/N } σ=σ2
=(i=1∑N(xi−μ)2)/N
-
公式推導
σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N = 1 N ∑ i = 1 N ( x i 2 − 2 μ ∗ x i + μ 2 ) = 1 N ( ∑ i = 1 N x i 2 − 2 μ ∑ i = 1 N x i + ∑ i = 1 N μ 2 ) = 1 N ∑ i = 1 N x i 2 − 2 μ 2 + μ 2 = 1 N ∑ i = 1 N x i 2 − μ 2 \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N=\frac{1}{N}\sum_{i=1}^N(x_i^2−2μ∗x_i+μ^2)=\frac{1}{N}(\sum_{i=1}^Nx_i^2−2μ\sum_{i=1}^Nx_i+\sum_{i=1}^Nμ^2)=\frac{1}{N}\sum_{i=1}^Nx_i^2−2μ^2+μ^2=\frac{1}{N}\sum_{i=1}^Nx_i^2−μ^2 σ2=(i=1∑N(xi−μ)2)/N=N1i=1∑N(xi2−2μ∗xi+μ2)=N1(i=1∑Nxi2−2μi=1∑Nxi+i=1∑Nμ2)=N1i=1∑Nxi2−2μ2+μ2=N1i=1∑Nxi2−μ2
概念4:随機變量(Random variable)
-
像是從随機過程映射到數值的函數,如用随機變量 X X X表示明天是否下雨,則表達式如下:
X = { 1 下雨 0 不下雨 X= \begin{cases} 1& \text{下雨}\\ 0& \text{不下雨} \end{cases} X={10下雨不下雨
實質上就是一個函數映射的過程。
-
随機變量分為離散型随機變量和連續型随機變量,離散型随機變量對應分布律,連續性随機變量對應機率密度函數。
随 機 變 量 包 括 { 離 散 型 随 機 變 量 ( 有 窮 ) 連 續 型 随 機 變 量 ( 無 窮 ) 随機變量包括 \begin{cases} 離散型随機變量 (有窮)\\ 連續型随機變量 (無窮) \end{cases} 随機變量包括{離散型随機變量(有窮)連續型随機變量(無窮)
概念5:機率密度函數
-
機率密度函數用于反映連續型随機變量的分布,對應機率密度曲線,曲線下相應區間的面積即為所在區間對應的機率。
P ( 1 < X < 3 ) = ∫ 1 3 f X ( x ) d x P(1<X<3)=\int_{1}^{3}f_X(x)d_x P(1<X<3)=∫13fX(x)dx
- 離散型随機随機變量反映在分布上式離散的柱狀圖形式,而不是連續曲線。
注意:
(1) P ( Y = 2 ) = 0 P(Y=2)=0 P(Y=2)=0,連續随機變量在任意某一點的機率為0,我們隻能說 P ( ∣ Y − 2 ∣ ) < α P(|Y-2|)<\alpha P(∣Y−2∣)<α類似的形式。
(2)随機變量的全部可能結果的出現機率之和為1,即機率密度曲線下的面積為1。
概念6:二項分布(Binomial Distribution)
- 典型過程:随機投擲篩子若幹次(比如5次),出現正面朝上的機率即服從二項分布,表示為 X 服 從 N ( 5 , p ) X服從N(5,p) X服從N(5,p)。出現k次正面朝上的機率為: P ( X = k ) = C n k ( 1 2 ) k ∗ ( 1 2 ) n − k P(X=k)=C_n^k(\frac{1}{2})^k*(\frac{1}{2})^{n-k} P(X=k)=Cnk(21)k∗(21)n−k,該機率與二項式 ( 1 2 + 1 2 ) n (\frac{1}{2}+\frac{1}{2})^n (21+21)n有關,将該二項式分解即可得機率。
- 二項分布可視為若幹次獨立伯努利實驗。當n足夠大時,趨近于正态分布。泊松分布可以看成是二項分布的極限,假設泊松分布參數 λ = n p \lambda=np λ=np,當二項分布n足夠大、p足夠小時,可用泊松分布的機率來模拟二項分布。
-
二項分布的期望與方差
E ( X ) = n p E(X)=np E(X)=np
D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)
-
Excel求解二項式系數
主要是采用fact函數求階乘。
概念7:期望(Expectation)
- 随機變量的期望實際上就是總體的均值,它隻是針對總體不确定或太大的情況下采用的一種變通的求解方式(變通之處在于不是求和取平均,而是采用結果權重求和的方式)。
-
計算方式
E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1∑nxipi
-
二項分布期望推導
E ( X ) = ∑ i = 1 n i ∗ C n i p i ( 1 − p ) n − i = ∑ i = 1 n i ∗ n ! i ! ∗ ( n − i ) ! ∗ p i ∗ ( 1 − p ) n − i = … = n p E(X)=\sum_{i=1}^ni*C_n^ip^i(1-p)^{n-i}=\sum_{i=1}^n{\frac{i*n!}{i!*(n-i)!}*p^i*(1-p)^{n-i}}=\ldots=np E(X)=i=1∑ni∗Cnipi(1−p)n−i=i=1∑ni!∗(n−i)!i∗n!∗pi∗(1−p)n−i=…=np
推導具體過程:二項分布的期望
概念8:蔔瓦松過程(Poison)
-
典型過程:任一時刻通過街上某一點的車輛數
假設1:街上此點任意時刻的車流量沒有差異
假設2:一段時間的車流量對另一段時間的車流量沒有影響
- 泊松分布其實就是來源于二項分布,是二項分布當n趨近于無窮大(将連續時間等分為無窮多個區間,保證每一區間内最多隻有一個結果,如此便可視為二項分布)的極限形式。
-
公式推導
∵ E ( X ) = λ = n p \because E(X)=\lambda=np ∵E(X)=λ=np
∴ p = λ n \therefore p=\frac{\lambda}{n} ∴p=nλ
∴ 令 n → ∞ \therefore 令n\rightarrow\infty ∴令n→∞,則可近似成二項分布,出現車輛數為k的機率是 P ( X = k ) = lim n → ∞ ( k n ) ( λ n ) k ( 1 − λ n ) n − k = … ( 分 解 + 求 極 限 ) = λ k e − λ k ! P(X=k)=\lim_{n\rightarrow\infty}(_k^n)(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\ldots(分解+求極限)=\frac{\lambda^ke^{-\lambda}}{k!} P(X=k)=n→∞lim(kn)(nλ)k(1−nλ)n−k=…(分解+求極限)=k!λke−λ
概念9:大數定律(the law of large numbers)
- 大數定律是指:樣本量足夠大時,樣本均值趨近于随機變量的期望值。
概念10:正态分布/高斯分布(normal distribution)
-
機率密度函數形如鐘形曲線。機率密度函數如下:
p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} p(x)=σ2π
1e−21(σx−μ)2
二項分布中試驗次數足夠大時類似于正态分布。“()”中的内容稱為“标準Z分數”,表示x距總體均值幾倍标準差。
-
μ \mu μ與 σ \sigma σ參數對機率密度曲線形狀的影響
當 μ \mu μ大于0時,整體右移, μ \mu μ小于0時,整體左移。
σ \sigma σ越大,曲線越矮胖, σ \sigma σ越小,曲線越矮胖。
-
機率計算
P ( x 1 < x < x 2 ) = ∫ x 1 x 2 p ( x ) d x P(x_1<x<x_2)=\int_{x_1}^{x_2}p(x)d_x P(x1<x<x2)=∫x1x2p(x)dx
機率其實就是鐘形曲線下對應區間的面積。
概念11:累積分布函數(CDF)
-
函數形式
C D F ( x ) = ∫ − ∞ x p ( x ) d x CDF(x)=\int_{-\infty}^xp(x)d_x CDF(x)=∫−∞xp(x)dx
有些地方用 F X ( x ) F_X(x) FX(x)來表示累積分布函數。
-
函數性質
F X ( + ∞ ) = 1 F_X(+\infty)=1 FX(+∞)=1
F X ( − ∞ ) = 0 F_X(-\infty)=0 FX(−∞)=0
-
EXCEL計算函數
n o r m d i s t ( x , μ , σ , f l a g ) normdist(x,\mu,\sigma,flag) normdist(x,μ,σ,flag),flag參數表示是否累積分布,如果不是累積分布,則為false。
概念12:中心極限定理(the central limit theorem)
- 内容:抛擲足夠多次硬币,每次抛擲互相獨立。設随機變量X當正面朝上時為1,正面朝下時為0。則當試驗次數趨近無窮大時,随機變量的和趨近于正态分布。
概念13:正态分布相關問題
- 要學會判斷是否為正态分布
-
計算标準Z分數:
Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ
标準Z分數可通過查标準正态分布表 ϕ \phi ϕ獲得。
:假設檢驗、區間估計中标準Z分數用得特别多, 3 σ 3\sigma 3σ是一個比較突出的位置,要多了解。注意
-
經驗法則(68-95-99.7法則)
指對于正态分布來說,有68%的資料處于離均值1倍标準差以内,有95%的資料處于離均值2倍标準差以内,有99.7%的資料處于離均值3倍标準差以内。