統計學基礎知識點刷題（task1）

參考視訊：可汗學院《統計學》

參考書籍：《深入淺出統計學》

筆記内容

概念1:樣本和總體

樣本均值與總體均值

樣本均值用 X X X表示，總體均值用 μ \mu μ表示，計算方式如下：

X = ( ∑ i = 1 n x i ) / n X=(\sum_{i=1}^nx_i)/n X=(i=1∑nxi)/n

μ = ( ∑ i = 1 N x i ) / N μ=(\sum_{i=1}^Nx_i)/N μ=(i=1∑Nxi)/N

個人了解:

此處 x i x_i xi表示觀測值，而 X i X_i Xi表示随機變量，二者是不同的，書寫時要注意。

N表示總體的數目，而n<N，表示樣本數目。

可以将總體了解為一個大的集合，而樣本是能夠在一定程度上表示該集合的子集（這一點與資訊論裡面的 典型集 概念很像）。當然，并不是任意樣本都能表示總體，必須是随機采樣而來的才行。

概念2：總體方差與樣本方差

表征意義

均值、衆數和中位數等名額用于表征資料的偏移，還需要方差（variance）用于表征資料的離散分布，展現資料的分散（dispersion）程度。
計算方式

總體方差一般用 σ 2 \sigma^2 σ2來表示，計算公式如下：

σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N σ2=(i=1∑N(xi−μ)2)/N

樣本方差一般用 S 2 S^2 S2來表示，計算公式如下：

S 2 = ( ∑ i = 1 n ( x i − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n(x_i−\overline{x})^2)/(n−1) S2=(i=1∑n(xi−x)2)/(n−1)
上式被稱為“總體方差的無偏估計”

個人了解:

按照總體方差的計算公式來看，樣本方差的計算公式按理來說分母應該是n，為什麼此處是(?−1)呢？

（1）對于抽樣樣本來說，其樣本均值往往并不是靠近總體均值，而是靠近樣本的中心，這樣會導緻分子（平方和）偏小，如果還是用分母為n的公式計算，将會導緻樣本方差偏小（用于估計總體方差時會偏小）。

（2）也可了解為樣本均值x包含了一個資訊自由度（通過n-1個樣本及x即可确定剩下的xn,是以實際自由度為n-1），因而對應的分母應該為n-1。

關于偏差（bias）和方差（variance）的權衡在機器學習中很常見（trade-off）。訓練集過拟合就會低偏差高方差，模型泛化能力差，而欠拟合一般會造成高偏差低方差（高偏差高方差也有可能），具體細節可參考深度學習吳恩達相關課程。

概念3：标準差

為什麼有了方差還需要标準差？

因為方差的機關與原始資料機關相比多了一個平方，而标準差與原始資料機關量級相同，便于計算。标準差還可幫助計算資料點落在距離均值數倍标準差之内的機率。
計算公式

σ = σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N(x_i−μ)^2)/N } σ=σ2

=(i=1∑N(xi−μ)2)/N
公式推導

σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N = 1 N ∑ i = 1 N ( x i 2 − 2 μ ∗ x i + μ 2 ) = 1 N ( ∑ i = 1 N x i 2 − 2 μ ∑ i = 1 N x i + ∑ i = 1 N μ 2 ) = 1 N ∑ i = 1 N x i 2 − 2 μ 2 + μ 2 = 1 N ∑ i = 1 N x i 2 − μ 2 \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N=\frac{1}{N}\sum_{i=1}^N(x_i^2−2μ∗x_i+μ^2)=\frac{1}{N}(\sum_{i=1}^Nx_i^2−2μ\sum_{i=1}^Nx_i+\sum_{i=1}^Nμ^2)=\frac{1}{N}\sum_{i=1}^Nx_i^2−2μ^2+μ^2=\frac{1}{N}\sum_{i=1}^Nx_i^2−μ^2 σ2=(i=1∑N(xi−μ)2)/N=N1i=1∑N(xi2−2μ∗xi+μ2)=N1(i=1∑Nxi2−2μi=1∑Nxi+i=1∑Nμ2)=N1i=1∑Nxi2−2μ2+μ2=N1i=1∑Nxi2−μ2

概念4：随機變量（Random variable）

像是從随機過程映射到數值的函數，如用随機變量 X X X表示明天是否下雨，則表達式如下：

X = { 1 下雨 0 不下雨 X= \begin{cases} 1& \text{下雨}\\ 0& \text{不下雨} \end{cases} X={10下雨不下雨

實質上就是一個函數映射的過程。
随機變量分為離散型随機變量和連續型随機變量,離散型随機變量對應分布律，連續性随機變量對應機率密度函數。

随機變量包括 { 離散型随機變量（有窮）連續型随機變量（無窮）随機變量包括 \begin{cases} 離散型随機變量（有窮）\\ 連續型随機變量（無窮） \end{cases} 随機變量包括{離散型随機變量（有窮）連續型随機變量（無窮）

概念5：機率密度函數

機率密度函數用于反映連續型随機變量的分布，對應機率密度曲線，曲線下相應區間的面積即為所在區間對應的機率。

P ( 1 < X < 3 ) = ∫ 1 3 f X ( x ) d x P(1<X<3)=\int_{1}^{3}f_X(x)d_x P(1<X<3)=∫13fX(x)dx
離散型随機随機變量反映在分布上式離散的柱狀圖形式，而不是連續曲線。

注意：

(1) P ( Y = 2 ) = 0 P(Y=2)=0 P(Y=2)=0,連續随機變量在任意某一點的機率為0，我們隻能說 P ( ∣ Y − 2 ∣ ) < α P(|Y-2|)<\alpha P(∣Y−2∣)<α類似的形式。

(2)随機變量的全部可能結果的出現機率之和為1,即機率密度曲線下的面積為1。

概念6：二項分布（Binomial Distribution）

典型過程：随機投擲篩子若幹次（比如5次），出現正面朝上的機率即服從二項分布，表示為 X 服從 N ( 5 ， p ) X服從N(5，p) X服從N(5，p)。出現k次正面朝上的機率為: P ( X = k ) = C n k ( 1 2 ) k ∗ ( 1 2 ) n − k P(X=k)=C_n^k(\frac{1}{2})^k*(\frac{1}{2})^{n-k} P(X=k)=Cnk(21)k∗(21)n−k，該機率與二項式 ( 1 2 + 1 2 ) n (\frac{1}{2}+\frac{1}{2})^n (21+21)n有關,将該二項式分解即可得機率。
二項分布可視為若幹次獨立伯努利實驗。當n足夠大時，趨近于正态分布。泊松分布可以看成是二項分布的極限，假設泊松分布參數 λ = n p \lambda=np λ=np，當二項分布n足夠大、p足夠小時，可用泊松分布的機率來模拟二項分布。
二項分布的期望與方差

E ( X ) = n p E(X)=np E(X)=np

D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)
Excel求解二項式系數

主要是采用fact函數求階乘。

概念7：期望(Expectation)

随機變量的期望實際上就是總體的均值，它隻是針對總體不确定或太大的情況下采用的一種變通的求解方式（變通之處在于不是求和取平均，而是采用結果權重求和的方式）。
計算方式

E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1∑nxipi
二項分布期望推導

E ( X ) = ∑ i = 1 n i ∗ C n i p i ( 1 − p ) n − i = ∑ i = 1 n i ∗ n ! i ! ∗ ( n − i ) ! ∗ p i ∗ ( 1 − p ) n − i = … = n p E(X)=\sum_{i=1}^ni*C_n^ip^i(1-p)^{n-i}=\sum_{i=1}^n{\frac{i*n!}{i!*(n-i)!}*p^i*(1-p)^{n-i}}=\ldots=np E(X)=i=1∑ni∗Cnipi(1−p)n−i=i=1∑ni!∗(n−i)!i∗n!∗pi∗(1−p)n−i=…=np

推導具體過程：二項分布的期望

概念8：蔔瓦松過程（Poison）

典型過程：任一時刻通過街上某一點的車輛數

假設1：街上此點任意時刻的車流量沒有差異

假設2：一段時間的車流量對另一段時間的車流量沒有影響
泊松分布其實就是來源于二項分布，是二項分布當n趨近于無窮大（将連續時間等分為無窮多個區間，保證每一區間内最多隻有一個結果，如此便可視為二項分布）的極限形式。
公式推導

∵ E ( X ) = λ = n p \because E(X)=\lambda=np ∵E(X)=λ=np

∴ p = λ n \therefore p=\frac{\lambda}{n} ∴p=nλ

∴ 令 n → ∞ \therefore 令n\rightarrow\infty ∴令n→∞,則可近似成二項分布，出現車輛數為k的機率是 P ( X = k ) = lim ⁡ n → ∞ ( k n ) ( λ n ) k ( 1 − λ n ) n − k = … ( 分解 + 求極限 ) = λ k e − λ k ! P(X=k)=\lim_{n\rightarrow\infty}(_k^n)(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\ldots(分解+求極限)=\frac{\lambda^ke^{-\lambda}}{k!} P(X=k)=n→∞lim(kn)(nλ)k(1−nλ)n−k=…(分解+求極限)=k!λke−λ

概念9：大數定律（the law of large numbers）

大數定律是指：樣本量足夠大時，樣本均值趨近于随機變量的期望值。

概念10：正态分布/高斯分布（normal distribution）

機率密度函數形如鐘形曲線。機率密度函數如下：

p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} p(x)=σ2π

1e−21(σx−μ)2

二項分布中試驗次數足夠大時類似于正态分布。“（）”中的内容稱為“标準Z分數”，表示x距總體均值幾倍标準差。
μ \mu μ與 σ \sigma σ參數對機率密度曲線形狀的影響

當 μ \mu μ大于0時，整體右移， μ \mu μ小于0時，整體左移。

σ \sigma σ越大，曲線越矮胖， σ \sigma σ越小，曲線越矮胖。
機率計算

P ( x 1 < x < x 2 ) = ∫ x 1 x 2 p ( x ) d x P(x_1<x<x_2)=\int_{x_1}^{x_2}p(x)d_x P(x1<x<x2)=∫x1x2p(x)dx

機率其實就是鐘形曲線下對應區間的面積。

概念11：累積分布函數（CDF）

函數形式

C D F ( x ) = ∫ − ∞ x p ( x ) d x CDF(x)=\int_{-\infty}^xp(x)d_x CDF(x)=∫−∞xp(x)dx

有些地方用 F X ( x ) F_X(x) FX(x)來表示累積分布函數。
函數性質

F X ( + ∞ ) = 1 F_X(+\infty)=1 FX(+∞)=1

F X ( − ∞ ) = 0 F_X(-\infty)=0 FX(−∞)=0
EXCEL計算函數

n o r m d i s t ( x , μ , σ , f l a g ) normdist(x,\mu,\sigma,flag) normdist(x,μ,σ,flag),flag參數表示是否累積分布，如果不是累積分布，則為false。

概念12：中心極限定理（the central limit theorem）

内容：抛擲足夠多次硬币，每次抛擲互相獨立。設随機變量X當正面朝上時為1，正面朝下時為0。則當試驗次數趨近無窮大時，随機變量的和趨近于正态分布。

概念13：正态分布相關問題

要學會判斷是否為正态分布
計算标準Z分數：

Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ

标準Z分數可通過查标準正态分布表 ϕ \phi ϕ獲得。
注意 ：假設檢驗、區間估計中标準Z分數用得特别多， 3 σ 3\sigma 3σ是一個比較突出的位置，要多了解。
經驗法則（68-95-99.7法則）

指對于正态分布來說，有68%的資料處于離均值1倍标準差以内，有95%的資料處于離均值2倍标準差以内，有99.7%的資料處于離均值3倍标準差以内。

統計學基礎知識點刷題（task1）

筆記内容

概念1:樣本和總體

概念2：總體方差與樣本方差

概念3：标準差

概念4：随機變量（Random variable）

概念5：機率密度函數

概念6：二項分布（Binomial Distribution）

概念7：期望(Expectation)

概念8：蔔瓦松過程（Poison）

概念9：大數定律（the law of large numbers）

概念10：正态分布/高斯分布（normal distribution）

概念11：累積分布函數（CDF）

概念12：中心極限定理（the central limit theorem）

概念13：正态分布相關問題

繼續閱讀

高斯混合模型GMM（Gaussian Mixture Model）

SPSS學習筆記（四）非參數檢驗一、配對：Wilcoxon符号-秩檢驗二、獨立樣本：Mann-Whitney U檢驗三、單因素ANOVA：Kruskal-Wallis檢驗

CRF介紹（轉自知乎）

Restricted cubic splines

資料分析系列：Z 檢驗和 T 檢驗的應用及代碼實作

資料的變量類型及其之間的關系

《商務與經濟統計》學習筆記(五)-點估計和區間估計

二項分布和多項分布

統計學基礎知識點刷題（task2）

統計學基礎知識點刷題（task3）

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

Adaboost的原理、推導與執行個體

基于觀測變量的調節效應分析

比特币下跌與加密貨币的關聯效應（附代碼）

模組化筆記——标準化和歸一化标準化和歸一化的差別