機器學習需要一些機率論和數理統計的知識做鋪墊,但也不是太硬性有一些了解即可,數理統計部分最重要。
另外很多數學符号沒發打字,我這篇文章處于待定狀态,找個空再完善。
一.機率論
【事件的機率】
1.無放回類題目:
例如:
盒子中有4紅3白7個球,無放回的取四個球,求取的球為2紅2白的機率。
p=(C2|4 * C2|3)/ C4|7
注意:
Cn|m=m!/(n!(m-n)!)
C2|3=3!/(2!*1!)
0!=1
2.有放回類題目:
盒子中有5紅6白11個球,又放回的摸5次,求摸出2紅3白的機率?
p= C2|5 * 5\11^2 * 6\11^3
3.需要畫圖的題目:
已知0<x<1,0.5<y<1.5,求x<y機率
已知0<x<1,0<y<1,求x2+y2<1機率
4.條件機率:
p(b|a)=p(ab)p(a)
某地區今年發洪水機率是80%,今明兩年至少有一年發生洪水的機率是85%,假如今年沒發,那麼明年發洪水的機率是多少?
今年發洪水=a
明年發洪水=b
p(!a|b)=p(!a*b)/p(!a)=5%/20%
5.全機率公式
一個事件發生的總機率是所有情況下發生此事件機率的和
6.貝葉斯公式
a,b事件都能觸發w事件,根據a發生機率,a觸發w機率,w發生總的機率,反推w事件發生時,觸發對象是a的機率
p(a|w)=p(a)p(w|a)/p(w)
w是a觸發的機率等于a觸發w機率比w發生機率
例如:某高速公路上有20%普通客車和80%高速客車,普通客車故障幾率是0.01,高速客車故障機率是0.002,問故障發生時
是高速客車的幾率?
a=一輛客車是高速客車
w=故障發生
p(a|w)=(p(a)*p(w|a))/p(w)
其中 p(w)=p(a)p(w|a)+p(b)p(w|b) ----》全機率公式
【一維随機變量】
連續随機變量的機率:我們一般用累計機率描述區間機率,也就是取值落在某個區間的機率,注意的是:在一個連續區間中取得某個特定值的機率是0,随機變量取到某個值的機率沒有機率意義,
1.已知累計機率分布函數或者機率密度函數求另一個
前者為後者積分,後者為前者導數。
注意:
機率密度函數的,某兩點x1到x2的積分面積,它指的是區間機率p(x1<x<x2)。
累計機率分布函數的點x0,指的是累計機率p(x<x0)
2.已知機率分布函數或者機率密度函數求區間機率
p(a<x<b)=F(b)-F(a)=Ia->b_f(x)dx Intergrate:積分 我暫且用I表示積分符号
3.機率密度函數或者機率分布函數參數求解
利用函數性質: End 末端
F(+E)=1,F(-E)=0
I-E->+E_f(x)dx=1
F(x)函數是單調遞增的函數,表示累計機率
4.求解分布律
分布律:随機變量所有可能取值以及各取值發生的機率,一般用清單表示叫做:分布列
【一維随機變量函數】
1.已知x分布列,和用y(x)求y分布列
2.已知機率分布函數Fx(x)和y(x)求Fy(y)
3.已知機率密度函數fx(x)和y(x)求fy(y)
【常見的五種分布】
1.均勻分布
機率密度函數圖像為水準線
2.泊松分布(離散分布)
P(X=k)=n^k/k! * e^-n
機率分布圖像近似正态分布不同在于離散
3.二項分布(離散分布,且随機變量取值空間:兩個離散值)
4.指數分布
f(x)={Ne^−Nx,(x≥0);0, (x<0)
5.正态分布
寫作:N(n,m) n為中心坐标 m為分布方差關系到圖像幅度
圖像為鐘型曲線
機率密度函數為
f(x)=n*G(2Pi)-1*exp(-(x-m)2/2n^2)
【離散型二維變量】
1.已知離散型分布律求???某機率
2.已知二維離散型分布律,判斷獨立性
如果任意x1,y1都滿足p(X=x1,Y=y1)=p(X=x1)p(Y=y1)那麼X,Y互相獨立否則不互相獨立
3.已知F(x,y)求f(x,y)
F(x,y)對x,y求偏導便得到f(x,y)
4.已知f(x,y)求F(x,y)
5.已知F(x,y)求p
6.已知f(x,y)求p
7.根據F(x,y),f(x,y)性質求F(x,y)或者f(x,y)中含有的未知數
8.均勻分布的f(x,y)和p
【連續型二維變量】
1.邊緣密度函數
2.連續型二維變量的獨立性
3.已知機率密度函數f(x,y),z與x,y關系z(x,y)求fz(z)
4.。。。。。
【數字特征】
1.離散型變量期望
2.連續型變量期望
3.方差
D(x)=累加(xi-E(X))^2pi
D(x)=E(x2)-E2(x)
4.E(x)D(x)的運算性質
E©=c D©=0
E(cx)=cE(x) D(cx)=C^2D(x)
5.相關系數
6.協方差
Cov(x,y)=E(xy)-E(x)*E(y)
Cov(x,y)=D(x)
cov(x,y)=0(x,y互相獨立時)
cov(x,y)=Lxy根下(D(x)D(y)
7.切比雪夫不等式 區間機率
P[|x-E(x)|>=b]<=D(x)/b^2
二.數理統計
1.矩估計法
設總體x的分布函數的形式已知,但他的一個或多個參數位置,借助于總體的一個樣本來估計總體的模型未知參數
的值稱為參數點估計
設X是一個随機變量,若E(X^k)存在,則稱她為k階矩,其實就是x^k的期望或者均值
抽出的樣本的k階矩:
由于抽樣離散是以用加和平均方法求期望得到的就是樣本的k階矩了
樣本的k階矩是總體k階矩的無偏估計量,兩者大體相等,利用這個等價關系做等式
例如:總體X在[a,b]上服從均勻分布,x1,x2,x3,x4,x5,…xn是來自x的樣本試求a,b的矩估計量。
樣本1階矩:A1=x1+x2+x3+x4+......xn/n (1)
總體1階矩:M1=E(x)=a+b/2 (2)
樣本2階矩:A2=x1^2+x2^2+x3^2+x4^4+.......xn^2/n (3)
總體2階矩:M2=E(x^2)=D(x)+E(x)^2=(b-a)^2/12+(a+b)^2/4 (4)
聯立(1)=(2) (3)=(4)
得出a,b
2.最大似然估計
最大似然估計應用在已知機率分布或者機率密度函數模型和一部分樣本的情況下,推算具體的機率密度函數,也就是求機率密度函數參數的場景中。
似然性與機率的關系:機率p(x|b)是在已知參數b的情況下,發生觀測結果x可能性大小
似然性L(b|x)則是從觀測結果x出發,分布函數的參數為b的可能性大小
似然函數如下:
L(b|x)=p(x;b)<=>p(x|b)
其中x已知,b是未知參數
它表述了:從結果反推各個可能原因中最有可能的原因 可以參考各原因中哪個原因最有可能導緻此結果,似然文言文意思:應該似乎是這樣(就像是偵探柯南推理)
若:L(b1|x)<=>p(x|b1)>p(x|b2)<=>L(b2|x)
那麼意味着b=b1時,随機變量X生成x的機率大于當參數b=b2時。這也是似然的意義所在,若觀測資料為x那麼b1更可能是分布函數的參數
例如:離散型随機變量X 的分布律為P(X|b) ,設x1,x2,x3,x4為來自X的樣本,b為待估參數。
在參數b=b?時,取到x1,x2,x3,x4的機率為
L(b?|x1,x2,x3,x4)=p(x1,x2,x3,x4;b?)=p(x1|b?)*p(x2|b?)*p(x3|b?)*p(x4|b?)
我們把那個最有可能的b?設為b* ,b*情況下抽樣結果最有可能取得x1,x2,x3,x4,即在衆多b的取值中b*對應的L(b*|x1,x2,x3,x4)最大
如何求b*呢?
一般情況下我們用導數,求p(x1|b?)*p(x2|b?)*p(x3|b?)*p(x4|b?)關于b的導數,導數為0時為極值點,此時b的取值就是b*。求導如果直接運算太費事,一般需要先變換,連乘可以用對數函數轉化為連加,然後再求導
3.最小二乘法
假如一個離散的資料集他們散落在二維坐标系中大緻是一個線性的分布狀态,如果求一條可以和他們大緻吻合的直線怎麼求?
我們用損失量描述吻合程度,他們成反比。
最小二乘法是尋找最小損失量即最吻合資料的直線的方法
原理:
設直線y=ax+b是最吻合資料的直線,資料集為點(Xi,Yi)(i=0,1,2,3,4…m),模型值yi=aXi+b與實際值Yi存在誤差c,設
c=yi-Yi,c服從中心極限定理(影響随機變量取值的各個比較重要的因素獨立,取較多次值,這些值它們就服從正态分布),誤差c有正有負可以将大體的期望看做是0方差不确定
c~N(0,n^2),那麼Yi=aXi+b+c也服從正态分布 Yi~N(aXi+b,n^2),隻不過每一個(Xi,Yi)(i=0,1,2,3,4…m)都在不同的正态分布中,要估計參數a,b可用最大似然估計
似然:L(a,b|Xi,Yi)=p(YiXi;a,b)=p(y1|x1;a,b)........*p(ym|xm;a,b)
其中:
(注意每一個p(xi,yi|a,b)服從的正态分布都不同)
p(yi|xi;a,b)=n*G(2Pi)^-1*exp(-(Yi-aXi-b)^2/2n^2)
求最大似然 :它們的正态分布有同樣的方差:n^2,也就是說要讓L最大隻能讓exp(-(Yi-aXi-b)^2)累乘最大也就是累加 S((Yi-aXi-b)^2)最小也就是S((Yi-yi)^2)最小
Loss=S((Yi-yi)^2)或者S((Yi-aXi-b)^2)叫做損失函數,損失函數最小的時候最吻合----------------最小二乘法
對此函數求偏導,使其為0得到a,b,數學計算待會吧。