1 樣本均值
設 $X_{1}, X_{2}, \cdots, X_{n}$ 為總體 $X$ 的樣本,樣本容量為 $n$ , 則樣本均值為
$\bar{X}=\frac{1}{n} \sum \limits _{i=1}^{n} X_{i}$
用樣本均值 $\bar{X}$ 來估計總體的期望 $ \mu$,$\bar{X}$ 是圍繞 $ \mu$ 左右波動的,即多次采樣計算出來的統計量 $ \bar{X}$ 有的落在 $ \mu$ 左邊,有的落在 $ \mu$ 右邊,由于 $ \bar{X}$ 落在 $ \mu$ 左右兩側的情況是均勻的,即 $ E(\bar{X})=\mu$,是以 $ \bar{X}$ 就是 $ \mu$ 的無偏估計。
樣本均值能夠保持比較好的無偏性是因為它的計算過程本質還是一個線性過程,這個就是無偏。
2 期望
離散型
如果随機變量隻取得有限個值或無窮能按一定次序一一列出,其值域為一個或若幹個有限或無限區間,這樣的随機變量稱為離散型随機變量。
離散型随機變量的一切可能的取值 $x_{i}$ 與對應的機率 $p\left(x_{i}\right)$ 乘積之和稱為該離散型随機變量的數學期望 (若該求和絕對收斂),記為 $E(x) $。 它是簡單算術平均的一種推廣,類似權重平均。
離散型随機變量 $X$ 的取值為 $ X_{1}, X_{2}, X_{3}, \ldots, X_{n}$,$p\left(X_{1}\right), p\left(X_{2}\right), p\left(X_{3}\right), \ldots, p\left(X_{n}\right) $ 為 $ X$ 對應取值的機率, 可了解為資料 $ X_{1}, X_{2}, X_{3}, \ldots, X_{n}$ 出現的頻率 $ f\left(X_{i}\right) $, 則:
$E(X)=X_{1} * p\left(X_{1}\right)+X_{2} * p\left(X_{2}\right)+\ldots+X_{n} * p\left(X_{n}\right)$
$\quad \quad \quad=X_{1} * f\left(X_{1}\right)+X_{2} * f\left(X_{2}\right)+\ldots+X_{n} * f\left(X_{n}\right)$
$E(X)=\sum \limits _{k=1}^{\infty} x_{k} p_{k}$
離散型随機變量函數的數學期望:
設随機變量 $Y$ 是 $X$ 的函數, 即 $Y=g(X)$,則 $Y$ 的數學期望為
$E(Y)=E(g(X))=\sum g\left(x_{k}\right) p_{k}, k=1,2,3,4 \ldots$
設随機變量 $Z$ 是 $X$ 和 $Y$ 的函數, 則 $Z=g(X, Y)$ ,則 $Z$ 的數學期望為
$E(Z)=E(g(X, Y))=\sum g\left(x_{i}, y_{j}\right) p_{i j}, i, j=1,2,3,4 \ldots$
連續型
設連續性随機變量 $X$ 的機率密度函數為 $f(x)$ , 若積分絕對收斂,則稱積分的值 $\int_{-\infty}^{\infty} x f(x) d x$ 為随機變量的數學期望, 記為 $\mathrm{E}(\mathrm{X})$。
$E(X)=\int_{-\infty}^{\infty} x f(x) d x$
若随機變量 $X$ 的分布函數 $F(x)$ 可表示成一個非負可積函數 $f(x)$ 的積分,則稱 $X$ 為連續性随機變量, $f(x)$ 稱為 $X$ 的機率密度函數 (分布密度函數)。數學期望 $ E(X)$ 完全由随機變量 $X$ 的機率分布所确定。若 $X$ 服從某一分布, 也稱 $ E(X)$ 是這一分布的數學期望。
定理
若随機變量 $Y$ 符合函數 $Y=g(x)$ ,且 $\int_{-\infty}^{\infty} g(x) f(x) d x$ 絕對收斂, 則有:
$E(Y)=E(g(X))=\int_{-\infty}^{\infty} g(x) f(x) d x$
該定理的意義在于: 我們求 $E(Y) $時不需要算出 $Y$ 的分布律或者機率分布, 隻要利用 $X$ 的分布律或機率密度即可。
上述定理還可以推廣到兩個或以上随機變量的函數情況。
連續型随機變量函數的數學期望:
設随機變量 $Y$ 是 $X$ 的函數, 即 $Y=g(X)$ , 則 $Y$ 的數學期望為
$E(Y)=E(g(X))=\int_{-\infty}^{+\infty} g(x) f(x) d x$
設随機變量 $Z$ 是 $X$ 和 $Y$ 的函數, 即 $Z=g(X, Y)$ , 二維随機變量 $(X, Y)$ 的機率密度是 $f(X, Y)$ , 則 $Z$ 的數學期望為
$E(Z)=E(g(X, Y))=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) d x d y$
性質
$E(C)=C$
$E(C X)=C E(X)$
$E(X+Y)=E(X)+E(Y)$
當 $X$ 和 $Y$ 互相獨立時, $ \quad E(X Y)=E(X) E(Y)$
3 方差
在統計描述中,方差用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度。總體方差計算公式:
$\sigma^{2}=\frac{\sum(X-\mu)^{2}}{N}$
其中 $\sigma^{2}$ 為總體方差,$X$ 為變量,$\mu$ 為總體均值,$N$ 為總體例數。
在機率分布中,設 $X$ 是一個離散型随機變量,若 $E \left((X-E(X))^{2}\right)$ 存在,則稱 $E(X-E(X))^{2} )$ 為 $X$ 的方差,記為 $D(X)$,$\operatorname{Var}(X) $ 或 $D X$,其中 $E(X) $是 $X$ 的期望值, $X$ 是變量值 ,公式中的 $E$ 是期望值 expected value 的縮寫,意為“随機變量值與其期望值之差的平方和"的期望值。離散型随機變量方差計算公式:
$D(X)=E\left((X-E(X))^{2}\right)=E\left(X^{2}\right)-E^{2}(X)$
當 $D(X)=E\left((X-E(X))^{2}\right)$ 稱為變量 $X$ 的方差,而 $\sigma=\sqrt{D(x)}$ 稱為标準差 (或均方差) 。 它與 $X$ 有相同的量綱。 标準差是用來衡量一組資料的離散程度的統計量。
對于連續型随機變量 $ X$ , 若其定義域為 $ (a, b) $,機率密度函數為 $ f(x)$ , 連續型随機變量 $X $方差計算公式:
$D(X)=(x-\mu)^{2} f(x) d x$
方差刻畫了随機變量的取值對于其數學期望的離散程度。 (标準差、方差越大, 離散程度越大)
若 $X$ 的取值比較集中,則方差 $ D(X)$ 較小,若 $X$ 的取值比較散,則方差 $ D(X)$ 較大。
是以, $ D(X) $ 是刻畫 $ X$ 取值分散程度的一個量,它是衡量取值分散程度的一個尺度。
4 協方差
協方差定義:在機率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
期望值分别為 $E[X]$ 與 $E[Y]$ 的兩個實随機變量 $X$ 與 $Y$ 之間的協方差 $Cov(X,Y)$ 定義為:
$Cov(X,Y)=E[\ (X-E[X])(Y-E[Y])\ ]$
$\quad \quad \quad \quad \quad=E[XY]-2E[Y]E[X]+E[X]E[Y] $
$\quad \quad \quad \quad \quad=E[XY]-E[X]E[Y] $
其中$E[X]=\mu_x,E[Y]=\mu_y$,從直覺上來看,協方差表示的是兩個變量總體誤差的期望。
性質:
若兩個随機變量 $X$ 和 $Y$ 互相獨立,則 $E[(X-E(X))(Y-E(Y))]=0$,因而若上述數學期望不為零,則 $X$ 和 $Y$ 必不是互相獨立的,亦即它們之間存在着一定的關系。
協方差與方差關系:
$D(X+Y)=D(X)+D(Y)+2Cov(X,Y) $
$D(X-Y)=D(X)+D(Y)-2Cov(X,Y) $
協方差與期望值關系:
$Cov(X,Y)=E(XY)-E(X)E(Y) $
協方差性質:
$Cov(X,Y)=Cov(Y,X) $
$Cov(aX,bY)=abCov(X,Y),(a,b是常數)$
$Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) $
$Cov(X+a,Y+b)=Cov(X,Y) $
由協方差定義,可以看出 $Cov(X,X)=D(X),Cov(Y,Y)=D(Y)$ 。
5 協方差矩陣
矩陣中的資料按行排列與按列排列求出的協方差矩陣是不同的,預設資料是按行排列。即每一行是一個observation(or sample),那麼每一列就是一個随機變量。
$X_{m \times n}=\begin{bmatrix}a_{11} & a_{12} & ... & a_{1n} \\a_{21} & a_{22} & ... & a_{3n} \\... & ... & ... & ... \\a_{m1} & a_{m2} & ... & a_{nn}\end{bmatrix}=[c_1,c_2,...,c_n]$
協方差矩陣:
$covMatrix=\frac{1}{m-1} \begin{bmatrix}cov(c_{1},c_{1}) & cov(c_{1},c_{2}) & ... & cov(c_{1},c_{n}) \\cov(c_{2},c_{1}) & cov(c_{2},c_{2}) & ... & cov(c_{2},c_{n}) \\... & ... & ... & ... \\cov(c_{n},c_{1}) & cov(c_{n},c_{2}) & ... & cov(c_{n},c_{n})\end{bmatrix}$
協方差矩陣的次元等于随機變量的個數,即每一個 observation 的次元。在某些場合前邊也會出現$\frac{1}{m}$,而不是 $\frac{1}{m-1}$ 。
求解協方差矩陣的步驟
例子:矩陣 $X$ 按行排列:
$X= \begin{bmatrix} 1 & 2 & 3\\ 3 & 1 &1 \end{bmatrix}$
求每個次元的平均值
$\bar{c}=\begin{bmatrix} 2 & 1.5 &2 \end{bmatrix}= \begin{bmatrix} \bar{c_1} & \bar{c_2} & \bar{c_3} \end{bmatrix}$
将 $X$ 的每一列減去平均值
$X=\begin{bmatrix} -1 & 0.5 & 1\\ 1 & -0.5 & -1 \end{bmatrix}$
其中:
$x_{ij}=x_{ij}-\bar{c_j}$
計算協方差矩陣
$covMatrix=\frac{1}{m-1}X^TX=\frac{1}{2-1}\begin{bmatrix} 2 & -1 & -2\\ -1 & 0.5 & 1\\ -2 & 1 & 2 \end{bmatrix}$
6 相關系數
協方差作為描述 $X$ 和 $Y$ 相關程度的量,在同一實體量綱之下有一定的作用,但同樣的兩個量采用不同的量綱使它們的協方差在數值上表現出很大的差異。為此引入 相關系數 概念:
定義:
$\rho _{xy}=\frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}} $
定義:若 $\rho _{xy}=0$,則稱 $X$ 與 $Y$ 不線性相關。即 $\rho _{xy}=0$ 的充分必要條件是 $Cov(X,Y)=0$ ,亦即不相關和協方差為零是等價的。