數理統計期末複習筆記（二）

數理統計期末複習筆記

主要内容：

貝葉斯估計，統計決策，偏差分析，線性回歸

貝葉斯方法

基本概念

貝葉斯派的觀點認為，機率就是信念
貝葉斯推斷： θ \theta θ：作為随機變量， X 1 , . . . , X n ∼ p ( x ∣ θ ) X_1,...,X_n\sim p(x|\theta) X1,...,Xn∼p(x∣θ)，後驗 ∼ \sim ∼先驗*似然，即 p ( θ ∣ x 1 , . . . , x n ) ∼ p ( θ ) × p ( x 1 , . . . , x n ∣ θ ) p(\theta|x_1,...,x_n)\sim p(\theta)\times p(x_1,...,x_n|\theta) p(θ∣x1,...,xn)∼p(θ)×p(x1,...,xn∣θ)

對 θ \theta θ的貝葉斯估計： θ ^ = E ( θ ∣ x ) \hat{\theta}=E(\theta|x) θ^=E(θ∣x)
先驗的構造：
- 平坦先驗：均勻分布，密度函數為常數；但是對于資料變換并不是不變的
- Jeffery先驗：先驗對于fisher資訊變換必須不變，即 π J ( θ ) = ( d e t ( I n ( θ ) ) ) 1 / 2 \pi_J(\theta)=(det(I_n(\theta)))^{1/2} πJ(θ)=(det(In(θ)))1/2，這裡I_n是用樣本的似然 p ( x ∣ θ ) p(x|\theta) p(x∣θ)求的；但是隻有一維的時候比較高效
- Reference先驗：希望從先驗中汲取到的資訊最少： p ( θ ) = argmax ⁡ θ d K L ( p ( θ ) , p ( θ ∣ x ) ) p(\theta)=\operatorname{argmax}_\theta d_{KL}(p(\theta),p(\theta|x)) p(θ)=argmaxθdKL(p(θ),p(θ∣x)), d K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln ⁡ p ( x ) q ( x ) d x d_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \ln \frac{p(x)}{q(x)} \mathrm{d} x dKL(P∥Q)=∫−∞∞p(x)lnq(x)p(x)dx；在一維下，Jeffery先驗和reference先驗相等
- conjugate先驗：選擇先驗使得和後驗的分布一樣；即尋找共轭組 F F F使得先驗和後驗均在其中
貝葉斯置信區間：

P ( θ ∈ [ L ( U ) , C ( U ) ] ∣ X ) = 1 − α P(\theta\in [L(U),C(U)]|X)=1-\alpha P(θ∈[L(U),C(U)]∣X)=1−α
貝葉斯檢驗：

貝葉斯檢驗同樣建立在後驗上。在檢驗中，比較 P ( θ ∈ Θ 0 ∣ x ) P(\theta\in\Theta_0|x) P(θ∈Θ0∣x)和 P ( θ ∈ Θ 1 ∣ x ) P(\theta\in\Theta_1|x) P(θ∈Θ1∣x)，哪個大就推斷 θ \theta θ滿足哪個。（設定域的自由度降低了不少）

統計決策

基本概念

決策規則： X X X為分布 P P P中随機産生的若幹樣本根據 X X X來決定若幹行動，稱為決策： D : ( X , F X ) → ( A , F A ) D:(X,F_X)\rightarrow (A,F_A) D:(X,FX)→(A,FA), F F F： σ \sigma σ-域

決策的估值：loss function L ( θ , a ) L(\theta,a) L(θ,a)：在情況 θ \theta θ下選擇行動a的代價

eg：平方損失函數，p-範數，0-1損失函數等
有些決策具有随機性，需要引入風險函數： R ( θ , a ) = E θ L ( θ , a ) R(\theta,a)=E_\theta L(\theta,a) R(θ,a)=EθL(θ,a)（這裡是指對 p ( X ∣ θ ) p(X|\theta) p(X∣θ)求期望，因為 a a a是根據 X X X決定的）

對于決策規則 A , B A,B A,B，如果對任意 θ \theta θ，A的選擇的風險都不比B大，則稱A至少和B一樣好（互相=>等價）

對于一族決策規則 T \mathcal{T} T，決策規則 T ∗ T^* T∗稱為 T \mathcal{T} T-最優的，如果它和任何其他決策都至少一樣好

對于一組決策規則 T \mathcal{T} T，決策規則 T T T稱為 T \mathcal{T} T-可采納的（admissible），如果沒有決策和它至少一樣好
Rao-blackwell定理：對于一個非随機政策 T 0 T_0 T0和凸的損失函數，考慮 H H H為一個充分統計量，那麼 T 1 = E ( T 0 ( x ) ∣ H ) T_1=E(T_0(x)|H) T1=E(T0(x)∣H)一定至少和它一樣好；是以隻需要考慮僅和充分統計量有關的規則即可

對決策規則的進一步提升

最大最小風險

最大最小估計： R n ≜ inf ⁡ θ ^ ∈ T sup ⁡ θ R ( θ , θ ^ ) R_n\triangleq \inf_{\hat{\theta}\in T} \sup_{\theta}R(\theta,\hat{\theta}) Rn≜infθ^∈TsupθR(θ,θ^)

即：在一族規則中，選擇最大風險最小的那個
貝葉斯風險

考慮先驗 π \pi π下貝葉斯風險為： B π ( θ ^ ) = ∫ R ( θ , θ ^ ) π ( θ ) d θ B_\pi (\hat{\theta})=\int R(\theta,\hat{\theta})\pi(\theta)d\theta Bπ(θ^)=∫R(θ,θ^)π(θ)dθ，故貝葉斯估計： inf ⁡ θ ^ ∈ T B π ( θ ^ ) \inf_{\hat{\theta}\in T} B_\pi(\hat{\theta}) infθ^∈TBπ(θ^)

貝葉斯檢驗的性質： π \pi π為先驗=>後驗分布： π ( θ ∣ x ) ∼ p ( x ∣ θ ) π ( θ ) \pi(\theta|x)\sim p(x|\theta)\pi(\theta) π(θ∣x)∼p(x∣θ)π(θ)

後驗風險：考慮 r ( θ ^ ∣ x ) = ∫ L ( θ , θ ^ ) π ( θ ∣ x ) d θ r(\hat{\theta}|x)=\int L(\theta,\hat{\theta})\pi(\theta|x)d\theta r(θ^∣x)=∫L(θ,θ^)π(θ∣x)dθ

定理： θ ^ ( x ) = argmin ⁡ θ r ( θ ^ ∣ x ) \hat{\theta}(x)=\operatorname{argmin}_\theta r(\hat{\theta}|x) θ^(x)=argminθr(θ^∣x)

示例： L = ( θ − θ ^ ) 2 L=(\theta-\hat{\theta})^2 L=(θ−θ^)2： θ ^ \hat{\theta} θ^= π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)的期望； L = ∣ θ − θ ^ ∣ L=|\theta-\hat{\theta}| L=∣θ−θ^∣：中位數； L = 0 − 1 L=0-1 L=0−1：單峰
關聯：擁有常數的風險函數的貝葉斯估計必然是最大最小估計

應用：證明某個政策是最大最小估計：構造恰當的先驗給出一個常數風險的貝葉斯估計

注：最大似然估計MLE 漸近地是最大最小估計

偏差分析Analysis of Variance

對三組及以上的人群做偏差分析，對其差别做推斷

單路ANOV（資料按照某個值分類）

模型： Y i j = θ i + ϵ i j , i = 1 ∼ I , j = 1 ∼ n i Y_{ij}=\theta_i+\epsilon_{ij},i=1\sim I,j=1\sim n_i Yij=θi+ϵij,i=1∼I,j=1∼ni，其中 E ( ϵ i j ) = 0 , V a r ( ϵ i j ) = σ i 2 E(\epsilon_{ij})=0,Var(\epsilon_{ij})=\sigma_i^2 E(ϵij)=0,Var(ϵij)=σi2

替代模型： Y i j = μ + γ i + ϵ i j Y_{ij}=\mu+\gamma_i+\epsilon_{ij} Yij=μ+γi+ϵij，但是不是可确定（identifiable）模型，因為參數值和分布并不一一對應

其它假設：
- 方差齊性（homoscedasticity），即 σ i 2 = σ 2 \sigma_i^2=\sigma^2 σi2=σ2，否則不好估計（如果無法滿足，考慮使用box-cox變換：取 ( y λ − 1 ) / λ (y^\lambda-1)/\lambda (yλ−1)/λ）
- 正态性： ϵ i j ∼ N ( 0 , σ 2 ) \epsilon_{ij}\sim N(0,\sigma^2) ϵij∼N(0,σ2)
ANOVA檢驗：

希望檢驗： H 0 : θ 1 = . . . . = θ I H_0:\theta_1=....=\theta_I H0:θ1=....=θI

S S T O T = ∑ i ∑ j ( Y i j − Y ‾ ) 2 = ∑ i ∑ j ( Y i j − Y ‾ i ⋅ ) 2 + ∑ i n i ( Y ‾ i ⋅ − Y ‾ ⋅ ⋅ ) 2 = S S W + S S B SS_{TOT}=\sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2=\sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2+\sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2=SS_W+SS_B SSTOT=∑i∑j(Yij−Y)2=∑i∑j(Yij−Yi⋅)2+∑ini(Yi⋅−Y⋅⋅)2=SSW+SSB(w: within group, b: between group)

推論：在方差齊性假設下： E ( S S W ) = ∑ i ( n i − 1 ) σ 2 , E ( S S B ) = ∑ i n i ( θ i − θ ‾ ) 2 + ( I − 1 ) σ 2 E(SS_W)=\sum_i (n_i-1)\sigma^2, E(SS_B)=\sum_i n_i(\theta_i-\overline{\theta})^2+(I-1)\sigma^2 E(SSW)=∑i(ni−1)σ2,E(SSB)=∑ini(θi−θ)2+(I−1)σ2

一個很常用的引理： E ( X i ) = μ i , V a r ( X i ) = σ 2 E(X_i)=\mu_i, Var(X_i)=\sigma^2 E(Xi)=μi,Var(Xi)=σ2，則 E ( X i − X ‾ ) 2 = ( μ i − μ ‾ ) 2 + n − 1 n σ 2 E(X_i-\overline{X})^2=(\mu_i-\overline{\mu})^2+\frac{n-1}{n} \sigma^2 E(Xi−X)2=(μi−μ)2+nn−1σ2

是以： E ( S S B ) ≥ ( I − 1 ) σ 2 E(SS_B)\geq (I-1)\sigma^2 E(SSB)≥(I−1)σ2當且僅當零假設成立時取等

推論：在方差齊性+正态+分組數量相同假設下： S S W / σ 2 ∼ χ I ( J − 1 ) 2 , S S B / σ 2 ∼ χ I − 1 2 SS_W/\sigma^2\sim \chi^2_{I(J-1)}, SS_B/\sigma^2\sim \chi^2_{I-1} SSW/σ2∼χI(J−1)2,SSB/σ2∼χI−12

是以，我們得到一個F統計量： F = S S B / ( I − 1 ) S S W / ( J − 1 ) I F=\frac{SS_B/(I-1)}{SS_W/(J-1)I} F=SSW/(J−1)ISSB/(I−1)，在零假設下滿足F分布，是以可以利用似然比方法構造測試

另一種ANOVA： T a = ∣ ∑ i = 1 a i Y ˉ i . − ∑ i = 1 a i θ i S p 2 ∑ i = 1 k a i 2 / n i ∣ T_a=\left|\frac{\sum_{i=1} a_i \bar{Y}_{i .}-\sum_{i=1} a_i \theta_i}{\sqrt{S_p^2 \sum_{i=1}^k a_i^2 / n_i}}\right| Ta=

Sp2∑i=1kai2/ni

∑i=1aiYˉi.−∑i=1aiθi

， T a > k T_a>k Ta>k則拒絕（？）

ANOVA表格：計算ANOVA的标準方式

方差來源	自由度	SS（方差和）	MS（平均方差）	F統計量
組間	k-1	∑ i n i ( Y ‾ i ⋅ − Y ‾ ⋅ ⋅ ) 2 \sum_i n_i(\overline{Y}_{i\cdot}-\overline{Y}_{\cdot\cdot})^2 ∑ini(Yi⋅−Y⋅⋅)2	SSB/(k-1)	MSB/MSW
組内	N-k	∑ i ∑ j ( Y i j − Y ‾ i ⋅ ) 2 \sum_i\sum_j (Y_{ij}-\overline{Y}_{i\cdot})^2 ∑i∑j(Yij−Yi⋅)2	SSW/(N-k)
總計	N-1	∑ i ∑ j ( Y i j − Y ‾ ) 2 \sum_{i}\sum_{j} (Y_{ij}-\overline{Y})^2 ∑i∑j(Yij−Y)2

Kruskal-Wallis檢驗（非參數方法）

如果資料并不滿足正态分布，如何檢驗 H 0 : H_0: H0:所有組的分布都相同？

考慮将所有資料直接重新按照從小到大排列，記資料 Y i j Y_{ij} Yij在其中的順序為 R i j R_{ij} Rij，則 S S B = ∑ i n i ( R ‾ i ⋅ − R ‾ ⋅ ⋅ ) 2 SS_B=\sum_i n_i (\overline{R}_{i\cdot} -\overline{R}_{\cdot\cdot})^2 SSB=∑ini(Ri⋅−R⋅⋅)2，其為 R R R的分散程度的度量。SSB越大，則說明零假設越可能不成立。可以證明，在零假設下， K = 12 N ( N + 1 ) S S B ∼ χ I − 1 2 K=\frac{12}{N(N+1)} SS_B\sim \chi^2_{I-1} K=N(N+1)12SSB∼χI−12，并且 P ( χ I − 1 2 > K ) P(\chi^2_{I-1}>K) P(χI−12>K)即為一個K值

線性回歸

線性回歸是最早提出的統計方法之一，在AI,ML中均有廣泛的使用

簡單線性回歸：

模型：使用樣本 X , Y X,Y X,Y預測 Y = β 0 + β 1 X Y=\beta_0+\beta_1X Y=β0+β1X

S x x = ∑ i ( x i − x ‾ ) 2 S_{xx}=\sum_i (x_i-\overline{x})^2 Sxx=∑i(xi−x)2， S y y = ∑ i ( y i − y ‾ ) 2 S_{yy}=\sum_i (y_i-\overline{y})^2 Syy=∑i(yi−y)2， S x y = ∑ i ( x i − x ‾ ) ( y i − y ‾ ) S_{xy}=\sum_i (x_i-\overline{x})(y_i-\overline{y}) Sxy=∑i(xi−x)(yi−y)

殘差： e i = y i − y ^ i e_i=y_i-\hat{y}_i ei=yi−y^i，其中 y i ^ = β 0 + β 1 x i \hat{y_i}=\beta_0+\beta_1x_i yi^=β0+β1xi為預測值

β 0 , β 1 \beta_0,\beta_1 β0,β1最小化殘差平方和： R S S = ∑ i e i 2 RSS=\sum_i e_i^2 RSS=∑iei2，可以解得 β ^ 1 = S x y S x x \hat{\beta}_1=\frac{S_{xy}}{S_{xx}} β^1=SxxSxy， β 0 ^ = y ‾ − β 1 ^ x ‾ \hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x} β0^=y−β1^x，稱為BLUE（best linear unbiased estimator）

同理，如果假設 x = β ~ 0 + β ~ 1 y {x}=\tilde{\beta}_0+\tilde{\beta}_1y x=β~0+β~1y，則可以解得 β ~ 1 = S x y S y y \tilde{\beta}_1=\frac{S_{xy}}{S_{yy}} β~1=SyySxy， β 0 ~ = x ‾ − β 1 ~ y ‾ \tilde{\beta_0}=\overline{x}-\tilde{\beta_1}\overline{y} β0~=x−β1~y
模型：假設樣本滿足分布： Y = β 0 + β 1 X + ϵ i , ϵ i ∼ N ( 0 , σ 2 ) Y=\beta_0+\beta_1X+\epsilon_i,\epsilon_i\sim N(0,\sigma^2) Y=β0+β1X+ϵi,ϵi∼N(0,σ2)

其MLE恰好就是LSE

在這個模型下的計算往往将X_i看做常數，采用對變量Y_i的分解計算，因為Y_i的基本資訊是清楚的，而且互相獨立

E ( R S S ) = ( n − 2 ) σ 2 E(RSS)=({n-2})\sigma^2 E(RSS)=(n−2)σ2，故 S 2 = R S S n − 2 S^2=\frac{RSS}{n-2} S2=n−2RSS是 σ 2 \sigma^2 σ2的無偏估計， β ^ 0 ∼ N ( β 0 , σ 2 n S x x ∑ i x i 2 ) \hat{\beta}_0\sim N(\beta_0,\frac{\sigma^2}{nS_{xx}} \sum_i x_i^2) β^0∼N(β0,nSxxσ2∑ixi2)， β ^ 1 ∼ N ( β 1 , σ 2 S x x ) \hat{\beta}_1\sim N(\beta_1,\frac{\sigma^2}{S_{xx}}) β^1∼N(β1,Sxxσ2)， Cov ⁡ ( β ^ 0 , β ^ 1 ) = − σ 2 x ˉ S x x \operatorname{Cov}\left(\widehat{\beta}_0, \widehat{\beta}_1\right)=-\frac{\sigma^2 \bar{x}}{S_{x x}} Cov(β

0,β

1)=−Sxxσ2xˉ； S 2 S^2 S2與 β ^ 0 , β ^ 1 \hat{\beta}_0,\hat{\beta}_1 β^0,β^1獨立，有 ( n − 2 ) S 2 σ 2 ∼ χ n − 2 2 \frac{(n-2) S^2}{\sigma^2} \sim \chi_{n-2}^2 σ2(n−2)S2∼χn−22

如果需要檢驗 β 1 \beta_1 β1是否為0，則 β ^ 1 \hat{\beta}_1 β^1的分布可以幫助構造一個估計： t = β ^ 1 S 2 / S x x ∼ t n − 2 t=\frac{\widehat{\beta}_1}{S^2/S_{xx}}\sim t_{n-2} t=S2/Sxxβ

1∼tn−2，t為學生t分布
模型的準确性檢驗：

為了檢驗線性回歸到底能否準确表現原問題的結果，一般使用兩個統計量
- RSE : = R S S n − 2 :=\sqrt{\frac{RSS}{n-2}} :=n−2RSS
  
  （residual standard error）
- R 2 R^2 R2：注意到 ∑ i = 1 n ( y i − y ˉ ) 2 = S S T = S S R + S S E = ∑ i = 1 n ( y ^ i − y ˉ ) 2 + ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n\left({y}_i-\bar{y}\right)^2=SST=SSR+SSE=\sum_{i=1}^n\left(\hat{y}_i-\bar{y}\right)^2+\sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2 ∑i=1n(yi−yˉ)2=SST=SSR+SSE=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^i)2，注意：這裡的 S S E = R S S SSE=RSS SSE=RSS
  
  是以， R 2 = S S r S S T = ∑ i ( y i ^ − y ‾ ) 2 ∑ i ( y i − y ‾ ) 2 R^2=\frac{SSr}{SST}=\frac{\sum_i (\hat{y_i}-\overline{y})^2}{\sum_i ({y_i}-\overline{y})^2} R2=SSTSSr=∑i(yi−y)2∑i(yi^−y)2，是以， R 2 R^2 R2越接近1，SST中可以被回歸模型解釋的部分就越多。
  
  注：可以證明： R 2 = S x y 2 S x x S y y R^2=\frac{S_{xy}^2}{S_{xx}S_{yy}} R2=SxxSyySxy2
模型的預測：

對于任意 x x x，模型的預測值 β ^ 0 + β ^ 1 x 0 ∼ N ( β 0 + β 1 x 0 , σ 2 ( 1 n + ( x 0 − x ‾ ) 2 S x x ) ) \hat{\beta}_0+\hat{\beta}_1x_0\sim N(\beta_0+\beta_1x_0,\sigma^2(\frac{1}{n}+\frac{ (x_0-\overline{x})^2}{S_{xx}})) β^0+β^1x0∼N(β0+β1x0,σ2(n1+Sxx(x0−x)2)). 考慮到 S 2 = R S S / ( n − 2 ) S^2=RSS/(n-2) S2=RSS/(n−2)是 σ 2 \sigma^2 σ2的無偏估計，并且 ( n − 2 ) S 2 σ 2 ∼ χ n − 2 2 \frac{(n-2) S^2}{\sigma^2} \sim \chi_{n-2}^2 σ2(n−2)S2∼χn−22，是以 β ^ 0 + β ^ 1 x 0 − ( β 0 + β 1 x 0 ) S 1 n + ( x 0 − x ˉ ) 2 S x x ∼ t n − 2 \frac{\widehat{\beta}_0+\widehat{\beta}_1 x_0-\left(\beta_0+\beta_1 x_0\right)}{S \sqrt{\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{S_{x x}}}} \sim t_{n-2} Sn1+Sxx(x0−xˉ)2

β

0+β

1x0−(β0+β1x0)∼tn−2

是以，對于要預測的 β 0 + β 1 x 0 \beta_0+\beta_1x_0 β0+β1x0，一個 1 − α 1-\alpha 1−α的置信區間為 β ^ 0 + β ^ 1 x 0 ± t n − 2 , 1 − α / 2 S 1 n + ( x 0 − x ˉ ) 2 S x x \widehat{\beta}_0+\widehat{\beta}_1 x_0\pm t_{n-2,1-\alpha / 2} S \sqrt{\frac{1}{n}+\frac{\left(x_0-\bar{x}\right)^2}{S_{x x}}} β

0+β

1x0±tn−2,1−α/2Sn1+Sxx(x0−xˉ)2

同理，如果要對一群樣本做confidence interval，将 1 − α / 2 → 1 − ( α / 2 m ) 1-\alpha/2\rightarrow 1-(\alpha/2m) 1−α/2→1−(α/2m)即可

該方法可以推廣出更加一般的統計量： P ( max ⁡ t ( ( Y ˉ − μ Y ˉ ) + ( β ^ 1 − β 1 ) t ) 2 S 2 ( 1 n + t 2 S x ) ≤ M α 2 ) = 1 − α P\left(\max _t \frac{\left(\left(\bar{Y}-\mu_{\bar{Y}}\right)+\left(\widehat{\beta}_1-\beta_1\right) t\right)^2}{S^2\left(\frac{1}{n}+\frac{t^2}{S_{\mathrm{x}}}\right)} \leq M_\alpha^2\right)=1-\alpha P

tmaxS2(n1+Sxt2)((Yˉ−μYˉ)+(β

1−β1)t)2≤Mα2

=1−α, M α = 2 F 2 , n − 2 , 1 − α M_\alpha=\sqrt{2F_{2,n-2,1-\alpha}} Mα=2F2,n−2,1−α

多元線性回歸

p個觀測值： y i = β 0 + β 1 X i 1 + . . . + β p X i p + ϵ i y_i=\beta_0+\beta_1 X_{i1}+...+\beta_p X_{ip}+\epsilon_i yi=β0+β1Xi1+...+βpXip+ϵi，即： Y = X β + ϵ Y=X\beta+\epsilon Y=Xβ+ϵ，其中 X = ( 1 , x i j ) X=(1,x_{ij}) X=(1,xij)

R S S ( β ) = ( y − X β ) T ( y − X β ) RSS(\beta)=(y-X\beta)^T(y-X\beta) RSS(β)=(y−Xβ)T(y−Xβ)，進而 β ^ = ( X T X ) − 1 X T y \hat{\beta}=(X^T X)^{-1}X^T y β^=(XTX)−1XTy，如果不滿秩則取廣義逆

E ( X T A X ) = T r ( A Σ ) + μ T A μ , C o v ( β ^ ) = σ 2 ( X T X ) − 1 E(X^T AX)=Tr(A\Sigma)+\mu^T A\mu, Cov(\hat{\beta})=\sigma^2 (X^T X)^{-1} E(XTAX)=Tr(AΣ)+μTAμ,Cov(β^)=σ2(XTX)−1

殘差向量： e ^ = ( I − H ) Y \widehat{e}=(I-H) Y e

=(I−H)Y, H = X ( X T X ) − 1 X T H=X(X^T X)^{-1}X^T H=X(XTX)−1XT為Y到 s p a n X span{X} spanX上的投影算子

E ( R S S ) = E ( e ^ T e ^ ) = E ( Y T ( I − H ) Y ) = ( E ( Y ) ) T ( I − H ) E ( Y ) + σ 2 ( n − p ) E(RSS)=E(\hat{e}^T\hat{e})=E(Y^T (I-H)Y)=(E(Y))^T\left(I-H\right) E(Y)+\sigma^2 (n-p) E(RSS)=E(e^Te^)=E(YT(I−H)Y)=(E(Y))T(I−H)E(Y)+σ2(n−p)

預測值： y ^ = X β ^ = H y \hat{y}=X\hat{\beta}=Hy y^=Xβ^=Hy；即使 X T X X^TX XTX奇異，預測出來的值依然是一樣的

檢驗： β 1 = . . . = β p = 0 \beta_1=...=\beta_p=0 β1=...=βp=0（這裡不管 β 0 \beta_0 β0），則一個F測試為： ( T S S − R S S ) / p R S S / ( n − p − 1 ) \frac{(T S S-R S S) / p}{R S S /(n-p-1)} RSS/(n−p−1)(TSS−RSS)/p， F F F接近1時為 H 0 H_0 H0，否則為 H 1 H_1 H1

檢驗： β p − q + 1 = . . . = β p = 0 \beta_{p-q+1}=...=\beta_{p}=0 βp−q+1=...=βp=0，則一個F測試為： ( R S S 0 − R S S ) / q R S S / ( n − p − 1 ) \frac{(RSS_0-R S S) / q}{R S S /(n-p-1)} RSS/(n−p−1)(RSS0−RSS)/q，其中 R S S 0 RSS_0 RSS0為不用後q個變量做回歸後的RSS

線性回歸的常見問題

ϵ i \epsilon_i ϵi之間并不無關

檢測：繪制縱軸 e i e_i ei橫軸 y ^ i \hat{y}_i y^i的散點圖并觀察圖式是否随機

解決：
資料的真實關系并非線性

檢測：繪制縱軸 e i e_i ei橫軸 y ^ i \hat{y}_i y^i的散點圖并觀察期望是否接近0
V a r ( ϵ i ) ≠ σ 2 Var(\epsilon_i)\neq \sigma^2 Var(ϵi)=σ2

檢測：繪制縱軸 e i e_i ei橫軸 y ^ i \hat{y}_i y^i的散點圖并觀察與0的距離是否均勻

解決： y → log ⁡ y y\rightarrow \log y y→logy
異常資料

檢測：對資料做studentize：leverage： h i i h_{ii} hii為投影矩陣H的對角線上第i個元素。注意： H T H = H H^T H=H HTH=H，進而 h i i = ∑ j h i j 2 = 1 n + ( x i − x ‾ ) 2 ∑ j ( x j − x ‾ ) 2 h_{ii}=\sum_j h_{ij}^2=\frac{1}{n}+\frac{(x_i-\overline{x})^2}{\sum_j (x_j-\overline{x})^2} hii=∑jhij2=n1+∑j(xj−x)2(xi−x)2，再定義 t i = ϵ i ^ σ ^ 1 − h i i t_i=\frac{\hat{\epsilon_i}}{\hat{\sigma}\sqrt{1-h_{ii}}} ti=σ^1−hii

ϵi^，其中 σ ^ 2 = ∑ j ϵ j 2 ^ n \hat{\sigma}^2=\frac{\sum_j \hat{\epsilon_j^2}}{n} σ^2=n∑jϵj2^，繪制 ( h i i , t i ) (h_{ii},t_{i}) (hii,ti)的散點圖即可找到異常
同線性（不同的X值（predictor）之間可能相關）

檢測：VIF（variance influence factor）

V I F k = 1 1 − R k 2 VIF_k=\frac{1}{1-R_k^2} VIFk=1−Rk21，其中 R k 2 R_k^2 Rk2為用其它所有變量對 x k x_k xk做回歸得到的回歸的R值，如果趨近于1則可認為獨立，如果大于5左右則有關

解決：丢掉一個相關度過高的變量/合并兩個相關變量
y不連續

此時不能做線性回歸，因為可解釋性太差
- 邏輯思谛回歸：(y二值)
  
  對 l o g i t ( p ( X ) ) = β 0 + β 1 X logit(p(X))=\beta_0+\beta_1X logit(p(X))=β0+β1X做線性回歸，用MLE求解方程；預測 x x x的機率： p ^ ( Y = 1 ∣ x ) = e β 0 ^ + β 1 ^ x 1 + e β 0 ^ + β 1 ^ x \hat{p}(Y=1|x)=\frac{e^{\hat{\beta_0}+\hat{\beta_1}x}}{1+e^{\hat{\beta_0}+\hat{\beta_1}x}} p^(Y=1∣x)=1+eβ0^+β1^xeβ0^+β1^x
- 線性分辨
  
  先估計 P ( X = k ∣ Y = j ) P(X=k|Y=j) P(X=k∣Y=j)，再用貝葉斯法則計算 P ( Y = j ∣ X = k ) P(Y=j|X=k) P(Y=j∣X=k)，貝葉斯分類器：輸出 k = argmax ⁡ j P ( Y = j ∣ X = k ) k=\operatorname{argmax}_j P(Y=j|X=k) k=argmaxjP(Y=j∣X=k)，如果已知模型，則可以考慮使用MLE來估算
  
  混淆矩陣：列出預測和真實的正确對應關系（類似假設檢驗）=>specificity：對的預測對的比例；sensitivity：錯的預測錯的比例。兩個都是越高越好，但是很難同時高；但是在二進制情形可以通過修改判斷為對的門檻值來計算
- KNN（k-近鄰）
  
  直接觀察一個點的最近的k個鄰居的頻率，然後模仿最高的頻率；距離度量：Mink距離，cosine距離等等
  
  優勢：容易執行，超參數少
  
  缺點：過拟合，次元災難，對内容占用巨大

常用分布：

指數組分布

标準形式： p ( x ∣ θ ) = h ( x ) c ( θ ) exp ⁡ { ∑ j = 1 k u j ( θ ) t j ( x ) } p(x|\theta)=h(x)c(\theta)\exp\{\sum_{j=1}^k u_j(\theta)t_j(x)\} p(x∣θ)=h(x)c(θ)exp{∑j=1kuj(θ)tj(x)}

性質：若 Ω = T ( x ) \Omega=T(x) Ω=T(x)包含一個 R k \mathbb{R}^k Rk中的開集，則 T ( x ) = ( ∑ i = 1 n t 1 ( x i ) , . . . , ∑ i = 1 n t k ( x i ) ) T(x)=(\sum_{i=1}^n t_1(x_i),...,\sum_{i=1}^n t_k(x_i)) T(x)=(∑i=1nt1(xi),...,∑i=1ntk(xi))是一組完全+充分統計量

常見的指數組：
- 指數分布： p ( x ∣ λ ) = λ e − λ x p(x|\lambda)=\lambda e^{-\lambda x} p(x∣λ)=λe−λx，則 h ( x ) = 1 , c ( λ ) = λ , u 1 ( λ ) = λ , t 1 ( x ) = − x h(x)=1,c(\lambda)=\lambda,u_1(\lambda)=\lambda,t_1(x)=-x h(x)=1,c(λ)=λ,u1(λ)=λ,t1(x)=−x
  
  完全統計量： ∑ i x i \sum_i x_i ∑ixi，期望 1 / λ 1/\lambda 1/λ，方差 1 / λ 2 1/\lambda^2 1/λ2
  
  n個指數分布的和： Γ ( n , λ ) \Gamma(n,\lambda) Γ(n,λ)
- 正态分布： p ( x ∣ σ , μ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x|\sigma,\mu)=\frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{ (x-\mu)^2}{2\sigma^2}} p(x∣σ,μ)=2πσ2
  
  1e−2σ2(x−μ)2，則 h ( x ) = 1 / 2 π , c ( σ , μ ) = 1 / σ e − μ 2 / σ 2 , u 1 ( σ , μ ) = 1 / 2 σ 2 , t 1 ( x ) = x 2 , u 2 ( σ , μ ) = μ / σ 2 , t 2 ( x ) = x h(x)=1/\sqrt{2\pi},c(\sigma,\mu)=1/\sigma e^{-\mu^2/\sigma^2},u_1(\sigma,\mu)=1/2\sigma^2,t_1(x)=x^2,u_2(\sigma,\mu)=\mu/\sigma^2,t_2(x)=x h(x)=1/2π
  
  ,c(σ,μ)=1/σe−μ2/σ2,u1(σ,μ)=1/2σ2,t1(x)=x2,u2(σ,μ)=μ/σ2,t2(x)=x
  
  完全統計量： ( ∑ i x i , ∑ i x i 2 ) (\sum_i x_i,\sum_i x_i^2) (∑ixi,∑ixi2)，期望 μ \mu μ，方差 σ 2 \sigma^2 σ2
- 泊松分布： p ( x ∣ λ ) = λ x x ! e − λ p(x|\lambda)=\frac{\lambda^x}{x!}e^{-\lambda} p(x∣λ)=x!λxe−λ
  
  完全統計量： ∑ i x i \sum_i x_i ∑ixi，期望 λ \lambda λ，方差 λ \lambda λ
- 二項分布： p ( x ∣ θ ) = ( n x ) θ x ( 1 − θ ) n − x p(x|\theta)=\binom{n}{x}\theta^x(1-\theta)^{n-x} p(x∣θ)=(xn)θx(1−θ)n−x
  
  完全統計量： ∑ i x i \sum_i x_i ∑ixi，期望 n p np np，方差 n p ( 1 − p ) np(1-p) np(1−p)
Beta分布： B e t a ( α , β ) : p ( θ ) = θ α − 1 ( 1 − θ ) β − 1 Γ ( α + β ) Γ ( α ) Γ ( β ) , 0 ≤ θ ≤ 1 Beta(\alpha,\beta): p(\theta)=\theta^{\alpha-1} (1-\theta)^{\beta-1}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}, 0\leq \theta\leq 1 Beta(α,β):p(θ)=θα−1(1−θ)β−1Γ(α)Γ(β)Γ(α+β),0≤θ≤1，期望： α α + β \frac{\alpha}{\alpha+\beta} α+βα，方差： α β ( α + β ) 2 ( α + β + 1 ) \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} (α+β)2(α+β+1)αβ
Gamma分布： Γ ( r , λ ) = λ r Γ ( λ ) x r − 1 e − λ x , x ≥ 0 \Gamma(r,\lambda)=\frac{\lambda^r}{\Gamma(\lambda)}x^{r-1}e^{-\lambda x},x\geq 0 Γ(r,λ)=Γ(λ)λrxr−1e−λx,x≥0， E = r λ − 1 , V = r λ − 2 E=r\lambda^{-1},V=r\lambda^{-2} E=rλ−1,V=rλ−2
卡方分布： = Γ ( n 2 , 1 2 ) =\Gamma(\frac{n}{2},\frac{1}{2}) =Γ(2n,21)，即n個iid的标準正态分布的平方和
學生t分布： X 1 , . . . , X n ∼ N ( μ , σ 2 ) X_1,...,X_n\sim N(\mu,\sigma^2) X1,...,Xn∼N(μ,σ2)，則 X ‾ − μ σ / n ∼ N ( 0 , 1 ) \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) σ/n

X−μ∼N(0,1)，但是 X ‾ − μ S / n ∼ t n − 1 \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t_{n-1} S/n

X−μ∼tn−1
F分布：對于兩個自由度為 d 1 , d 2 d_1,d_2 d1,d2的卡方分布 U 1 , U 2 U_1,U_2 U1,U2， F ( d 1 , d 2 ) ∼ U 1 / d 1 U 2 / d 2 F(d_1,d_2)\sim \frac{U_1/d_1}{U_2/d_2} F(d1,d2)∼U2/d2U1/d1
多元正态分布： f x ( x 1 , … , x k ) = 1 ( 2 π ) k ∣ Σ ∣ e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) f_{\mathbf{x}}\left(x_1, \ldots, x_k\right)=\frac{1}{\sqrt{(2 \pi)^k|\boldsymbol{\Sigma}|}} \mathrm{e}^{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})} fx(x1,…,xk)=(2π)k∣Σ∣

1e−21(x−μ)TΣ−1(x−μ)

常用概念：

大數定律： X ‾ → a . s . E X \overline{X}\stackrel{a.s.}\rightarrow EX X→a.s.EX 中心極限定理： X ‾ → d N ( E X , V a r ( X ) n ) \overline{X}\stackrel{d}{\rightarrow} N(EX,\frac{Var(X)}{n}) X→dN(EX,nVar(X))
随機變量的函數： f Y ( y ) = { f X [ g − 1 ( y ) ] ∣ d d y g − 1 ( y ) ∣ if ∃ x , s . t . y = g ( x ) 0 ∀ x , y ≠ g ( x ) f_Y(y)= \begin{cases}f_X\left[g^{-1}(y)\right]\left|\frac{\mathrm{d}}{\mathrm{d} y} g^{-1}(y)\right| & \text { if } \exists x, s . t . y=g(x) \\ 0 & \forall x, y \neq g(x)\end{cases} fY(y)={fX[g−1(y)]

dydg−1(y)

0 if ∃x,s.t.y=g(x)∀x,y=g(x)
随機向量的函數：

和的分布：卷積： q ( y ) = ∫ p 1 ( u ) p 2 ( y − u ) d u q(y)=\int p_1(u)p_2(y-u)du q(y)=∫p1(u)p2(y−u)du

順序統計量的分布： P { ξ n ∗ < x } = [ F ( x ) ] n P\{\xi_n^*<x\}=[F(x)]^n P{ξn∗<x}=[F(x)]n， ξ 1 , ξ n \xi_1,\xi_n ξ1,ξn的聯合密度 q ( x , y ) = { 0 x ≥ y n ( n − 1 ) [ F ( y ) − F ( x ) ] n − 2 p ( x ) p ( y ) e l s e q(x,y)=\left\{\begin{aligned} 0 \quad x\geq y\\ n(n-1)[F(y)-F(x)]^{n-2}p(x)p(y) \quad else\end{aligned}\right. q(x,y)={0x≥yn(n−1)[F(y)−F(x)]n−2p(x)p(y)else
E ( a X ) = a E ( X ) E(aX)=aE(X) E(aX)=aE(X), V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2 Var(X) Var(aX)=a2Var(X)

數理統計期末複習筆記（二）

數理統計期末複習筆記

貝葉斯方法

基本概念

統計決策

基本概念

對決策規則的進一步提升

偏差分析Analysis of Variance

單路ANOV（資料按照某個值分類）

線性回歸

簡單線性回歸：

多元線性回歸

線性回歸的常見問題

常用分布：

常用概念：

繼續閱讀

Google Earth Engine（GEE）——python s2cloudless 進行 Sentinel-2 雲掩膜

信噪比與EbN0

聊聊生日悖論和生日攻擊

數理統計與描述性分析

二項分布與負二項分布卡片二項分布負二項分布示例

【優化充電】遺傳算法求解電動汽車充電管理優化問題【Matlab 1178期】

Human-level concept learning through probabilistic program induction

交叉熵損失函數二進制交叉熵損失函數多元交叉熵函數詳解

交叉熵損失函數原理和推導

模糊綜合評價模型一.概述二.經典集合和模糊集合的基本概念三.隸屬函數的三種确定方法四.應用：模糊綜合評價

泛統計理論初探——模型評估的驗證政策資料挖掘-模型驗證政策簡介

Excel技巧：巧用字元串連接配接

NILMTK——因子隐馬爾可夫之隐馬爾可夫1. 馬爾可夫鍊2.馬爾可夫模型3. 隐馬爾可夫模型4.HMM三種方式的實作5. hmmlearn應用

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

4 機率機器人 Probabilistic Robotics 擴充卡爾曼濾波算法1 前提介紹2 通過泰勒展式進行線性化3 擴充卡爾曼濾波算法（EKF）4 擴充卡爾曼濾波執行個體5 擴充卡爾曼濾波（EKF）公式推導6 擴充卡爾曼濾波的優缺點7 參考文獻

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法