天天看點

統計學基礎知識點刷題(task1)

參考視訊:可汗學院《統計學》

參考書籍:《深入淺出統計學》

筆記内容

概念1:樣本和總體
  1. 樣本均值與總體均值

    樣本均值用 X X X表示,總體均值用 μ \mu μ表示,計算方式如下:

    X = ( ∑ i = 1 n x i ​ ) / n X=(\sum_{i=1}^nx_i​)/n X=(i=1∑n​xi​​)/n

μ = ( ∑ i = 1 N x i ​ ) / N μ=(\sum_{i=1}^Nx_i​)/N μ=(i=1∑N​xi​​)/N

個人了解:
  • 此處 x i x_i xi​​表示觀測值,而 X i X_i Xi​​表示随機變量,二者是不同的,書寫時要注意。
  • N表示總體的數目,而n<N,表示樣本數目。
  • 可以将總體了解為一個大的集合,而樣本是能夠在一定程度上表示該集合的子集(這一點與資訊論裡面的

    典型集

    概念很像)。當然,并不是任意樣本都能表示總體,必須是随機采樣而來的才行。
概念2:總體方差與樣本方差
  1. 表征意義

    均值、衆數和中位數等名額用于表征資料的偏移,還需要方差(variance)用于表征資料的離散分布,展現資料的分散(dispersion)程度。

  2. 計算方式

    總體方差一般用 σ 2 \sigma^2 σ2來表示,計算公式如下:

    σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N​(x_i​−μ)^2)/N σ2=(i=1∑N​​(xi​​−μ)2)/N

    樣本方差一般用 S 2 S^2 S2來表示,計算公式如下:

    S 2 = ( ∑ i = 1 n ​ ( x i ​ − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n​(x_i​−\overline{x})^2)/(n−1) S2=(i=1∑n​​(xi​​−x)2)/(n−1)

    上式被稱為“總體方差的無偏估計”

個人了解:

按照總體方差的計算公式來看,樣本方差的計算公式按理來說分母應該是n,為什麼此處是(?−1)呢?

(1)對于抽樣樣本來說,其樣本均值往往并不是靠近總體均值,而是靠近樣本的中心,這樣會導緻分子(平方和)偏小,如果還是用分母為n的公式計算,将會導緻樣本方差偏小(用于估計總體方差時會偏小)。

(2)也可了解為樣本均值x包含了一個資訊自由度(通過n-1個樣本及x即可确定剩下的xn​,是以實際自由度為n-1),因而對應的分母應該為n-1。

關于偏差(bias)和方差(variance)的權衡在機器學習中很常見(trade-off)。訓練集過拟合就會低偏差高方差,模型泛化能力差,而欠拟合一般會造成高偏差低方差(高偏差高方差也有可能),具體細節可參考深度學習吳恩達相關課程。

概念3:标準差
  1. 為什麼有了方差還需要标準差?

    因為方差的機關與原始資料機關相比多了一個平方,而标準差與原始資料機關量級相同,便于計算。标準差還可幫助計算資料點落在距離均值數倍标準差之内的機率。

  2. 計算公式

    σ = σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N​(x_i​−μ)^2)/N } σ=σ2

    ​=(i=1∑N​​(xi​​−μ)2)/N

  3. 公式推導

    σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N = 1 N ∑ i = 1 N ​ ( x i 2 ​ − 2 μ ∗ x i ​ + μ 2 ) = 1 N ​ ( ∑ i = 1 N ​ x i 2 ​ − 2 μ ∑ i = 1 N ​ x i ​ + ∑ i = 1 N ​ μ 2 ) = 1 N ​ ∑ i = 1 N ​ x i 2 ​ − 2 μ 2 + μ 2 = 1 N ​ ∑ i = 1 N ​ x i 2 ​ − μ 2 \sigma^2=(\sum_{i=1}^N​(x_i​−μ)^2)/N=\frac{1}{N}\sum_{i=1}^N​(x_i^2​−2μ∗x_i​+μ^2)=\frac{1}{N}​(\sum_{i=1}^N​x_i^2​−2μ\sum_{i=1}^N​x_i​+\sum_{i=1}^N​μ^2)=\frac{1}{N}​\sum_{i=1}^N​x_i^2​−2μ^2+μ^2=\frac{1}{N}​\sum_{i=1}^N​x_i^2​−μ^2 σ2=(i=1∑N​​(xi​​−μ)2)/N=N1​i=1∑N​​(xi2​​−2μ∗xi​​+μ2)=N1​​(i=1∑N​​xi2​​−2μi=1∑N​​xi​​+i=1∑N​​μ2)=N1​​i=1∑N​​xi2​​−2μ2+μ2=N1​​i=1∑N​​xi2​​−μ2

概念4:随機變量(Random variable)
  1. 像是從随機過程映射到數值的函數,如用随機變量 X X X表示明天是否下雨,則表達式如下:

    X = { 1 下雨 0 不下雨 X= \begin{cases} 1&amp; \text{下雨}\\ 0&amp; \text{不下雨} \end{cases} X={10​下雨不下雨​

    實質上就是一個函數映射的過程。

  2. 随機變量分為離散型随機變量和連續型随機變量,離散型随機變量對應分布律,連續性随機變量對應機率密度函數。

    随 機 變 量 包 括 { 離 散 型 随 機 變 量 ( 有 窮 ) 連 續 型 随 機 變 量 ( 無 窮 ) 随機變量包括 \begin{cases} 離散型随機變量 (有窮)\\ 連續型随機變量 (無窮) \end{cases} 随機變量包括{離散型随機變量(有窮)連續型随機變量(無窮)​

概念5:機率密度函數
  1. 機率密度函數用于反映連續型随機變量的分布,對應機率密度曲線,曲線下相應區間的面積即為所在區間對應的機率。

    P ( 1 &lt; X &lt; 3 ) = ∫ 1 3 f X ( x ) d x P(1&lt;X&lt;3)=\int_{1}^{3}f_X(x)d_x P(1<X<3)=∫13​fX​(x)dx​

  2. 離散型随機随機變量反映在分布上式離散的柱狀圖形式,而不是連續曲線。

注意:

(1) P ( Y = 2 ) = 0 P(Y=2)=0 P(Y=2)=0,連續随機變量在任意某一點的機率為0,我們隻能說 P ( ∣ Y − 2 ∣ ) &lt; α P(|Y-2|)&lt;\alpha P(∣Y−2∣)<α類似的形式。

(2)随機變量的全部可能結果的出現機率之和為1,即機率密度曲線下的面積為1。

概念6:二項分布(Binomial Distribution)
  1. 典型過程:随機投擲篩子若幹次(比如5次),出現正面朝上的機率即服從二項分布,表示為 X 服 從 N ( 5 , p ) X服從N(5,p) X服從N(5,p)。出現k次正面朝上的機率為: P ( X = k ) = C n k ( 1 2 ) k ∗ ( 1 2 ) n − k P(X=k)=C_n^k(\frac{1}{2})^k*(\frac{1}{2})^{n-k} P(X=k)=Cnk​(21​)k∗(21​)n−k,該機率與二項式 ( 1 2 + 1 2 ) n (\frac{1}{2}+\frac{1}{2})^n (21​+21​)n有關,将該二項式分解即可得機率。
  2. 二項分布可視為若幹次獨立伯努利實驗。當n足夠大時,趨近于正态分布。泊松分布可以看成是二項分布的極限,假設泊松分布參數 λ = n p \lambda=np λ=np,當二項分布n足夠大、p足夠小時,可用泊松分布的機率來模拟二項分布。
  3. 二項分布的期望與方差

    E ( X ) = n p E(X)=np E(X)=np

    D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)

  4. Excel求解二項式系數

    主要是采用fact函數求階乘。

概念7:期望(Expectation)
  1. 随機變量的期望實際上就是總體的均值,它隻是針對總體不确定或太大的情況下采用的一種變通的求解方式(變通之處在于不是求和取平均,而是采用結果權重求和的方式)。
  2. 計算方式

    E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1∑n​xi​pi​

  3. 二項分布期望推導

    E ( X ) = ∑ i = 1 n i ∗ C n i p i ( 1 − p ) n − i = ∑ i = 1 n i ∗ n ! i ! ∗ ( n − i ) ! ∗ p i ∗ ( 1 − p ) n − i = … = n p E(X)=\sum_{i=1}^ni*C_n^ip^i(1-p)^{n-i}=\sum_{i=1}^n{\frac{i*n!}{i!*(n-i)!}*p^i*(1-p)^{n-i}}=\ldots=np E(X)=i=1∑n​i∗Cni​pi(1−p)n−i=i=1∑n​i!∗(n−i)!i∗n!​∗pi∗(1−p)n−i=…=np

    推導具體過程:二項分布的期望

概念8:蔔瓦松過程(Poison)
  1. 典型過程:任一時刻通過街上某一點的車輛數

    假設1:街上此點任意時刻的車流量沒有差異

    假設2:一段時間的車流量對另一段時間的車流量沒有影響

  2. 泊松分布其實就是來源于二項分布,是二項分布當n趨近于無窮大(将連續時間等分為無窮多個區間,保證每一區間内最多隻有一個結果,如此便可視為二項分布)的極限形式。
  3. 公式推導

    ∵ E ( X ) = λ = n p \because E(X)=\lambda=np ∵E(X)=λ=np

    ∴ p = λ n \therefore p=\frac{\lambda}{n} ∴p=nλ​

    ∴ 令 n → ∞ \therefore 令n\rightarrow\infty ∴令n→∞,則可近似成二項分布,出現車輛數為k的機率是 P ( X = k ) = lim ⁡ n → ∞ ( k n ) ( λ n ) k ( 1 − λ n ) n − k = … ( 分 解 + 求 極 限 ) = λ k e − λ k ! P(X=k)=\lim_{n\rightarrow\infty}(_k^n)(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\ldots(分解+求極限)=\frac{\lambda^ke^{-\lambda}}{k!} P(X=k)=n→∞lim​(kn​)(nλ​)k(1−nλ​)n−k=…(分解+求極限)=k!λke−λ​

概念9:大數定律(the law of large numbers)
  1. 大數定律是指:樣本量足夠大時,樣本均值趨近于随機變量的期望值。
概念10:正态分布/高斯分布(normal distribution)
  1. 機率密度函數形如鐘形曲線。機率密度函數如下:

    p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} p(x)=σ2π

    ​1​e−21​(σx−μ​)2

    二項分布中試驗次數足夠大時類似于正态分布。“()”中的内容稱為“标準Z分數”,表示x距總體均值幾倍标準差。

  2. μ \mu μ與 σ \sigma σ參數對機率密度曲線形狀的影響

    當 μ \mu μ大于0時,整體右移, μ \mu μ小于0時,整體左移。

    σ \sigma σ越大,曲線越矮胖, σ \sigma σ越小,曲線越矮胖。

  3. 機率計算

    P ( x 1 &lt; x &lt; x 2 ) = ∫ x 1 x 2 p ( x ) d x P(x_1&lt;x&lt;x_2)=\int_{x_1}^{x_2}p(x)d_x P(x1​<x<x2​)=∫x1​x2​​p(x)dx​

    機率其實就是鐘形曲線下對應區間的面積。

概念11:累積分布函數(CDF)
  1. 函數形式

    C D F ( x ) = ∫ − ∞ x p ( x ) d x CDF(x)=\int_{-\infty}^xp(x)d_x CDF(x)=∫−∞x​p(x)dx​

    有些地方用 F X ( x ) F_X(x) FX​(x)來表示累積分布函數。

  2. 函數性質

    F X ( + ∞ ) = 1 F_X(+\infty)=1 FX​(+∞)=1

    F X ( − ∞ ) = 0 F_X(-\infty)=0 FX​(−∞)=0

  3. EXCEL計算函數

    n o r m d i s t ( x , μ , σ , f l a g ) normdist(x,\mu,\sigma,flag) normdist(x,μ,σ,flag),flag參數表示是否累積分布,如果不是累積分布,則為false。

概念12:中心極限定理(the central limit theorem)
  1. 内容:抛擲足夠多次硬币,每次抛擲互相獨立。設随機變量X當正面朝上時為1,正面朝下時為0。則當試驗次數趨近無窮大時,随機變量的和趨近于正态分布。
概念13:正态分布相關問題
  1. 要學會判斷是否為正态分布
  2. 計算标準Z分數:

    Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ​

    标準Z分數可通過查标準正态分布表 ϕ \phi ϕ獲得。

    注意

    :假設檢驗、區間估計中标準Z分數用得特别多, 3 σ 3\sigma 3σ是一個比較突出的位置,要多了解。
  3. 經驗法則(68-95-99.7法則)

    指對于正态分布來說,有68%的資料處于離均值1倍标準差以内,有95%的資料處于離均值2倍标準差以内,有99.7%的資料處于離均值3倍标準差以内。