天天看點

學習筆記DL008:機率論,随機變量,機率分布,邊緣機率,條件機率,期望、方差、協方差

機率和資訊論。

機率論,表示不确定性聲明數學架構。提供量化不确定性方法,提供導出新不确定性聲明(statement)公理。人工智能領域,機率法則,AI系統推理,設計算法計算機率論導出表達式。機率和統計理論分析AI系統行為。機率論提出不确定聲明,在不确定性存在情況下推理。資訊論量化機率分布不确定性總量。Jaynes(2003)。

機器學習經常處理不确定量,有時處理随機(非确定性)量。20世紀80年代,研究人員對機率論量化不确定性提出信服論據。Pearl(1998)。

不确定性來源。被模組化系統記憶體的随機性。不完全觀測,确定系統不能觀測到所有驅動系統行為變量,也呈随機性。不完全模組化,模型舍棄觀測資訊,導緻預測不确定性。簡單而不确定規則比複雜而确定規則更實用,即使真正規則是确定的并且模組化型系統足夠精确容納複雜規則。

機率論分析事件發生頻率。事件可以重複。結果發生機率p,反複無限次,有p比例會導緻某個結果。機率表示信任度(degree of belief)。直接與事件發生的頻率相聯系,頻率派機率(frequentist probability)。涉及到确定性水準,貝葉斯機率(Bayesian probability)。不确定性常識推理,列出若幹條期望性質,滿足唯一方法是貝葉斯機率和頻率機率等同。Ramsey(1926)。機率,處理不确定性邏輯擴充。邏輯提供形式化規則,給定命題真假,判斷另一些命題真假。機率論提供形式化規則,給定命題似然,計算其他命題為真似然。

随機變量(random variable)。

随機取不同值變量。無格式字型(plain typeface)小寫字母表示随機變量,手寫體小寫字母表示随機變量取值。随機變量對可能狀态描述。伴随機率分布批定每個狀态可能性。随機變量可以離散或連續。離散随機變量有限或可數無限多狀态。可能沒有數值。連續随機變量伴随實數值。

機率分布(probability distribution)。

随機變量或一簇随機變量每個狀态可能性大小。描述機率分布方式取決随機變量離散還是連續。

離散型變量和機率品質函數。離散弄變量機率分布用機率品質函數(probability mass function,PMF)描述。大寫字母P表示機率品質函數。每個随機變量有一個不同機率品質函數,根據随機變量推斷所用PMF。機率品質函數将随機變量每個狀态映射到随機變量取該狀态機率。x=x機率用P(x)表示,機率1表示x=x确定,機率0表示x=x不可能發生。明确寫出随機變量名稱,P(x=x)。定義随機變量,用~符号說明遵循分布,x~P(x)。機率品質同時作用多個随機變量。多個變量機率分布為聯合機率分布(joint probability distribution)。P(x=x,y=y)表示x=x和y=y同時發生機率。簡寫P(x,y)。函數P是随機變量x的PMF,P定義域必須是x所有可能狀态集合。FORALL(x) ELEMENT(X),0<=P(x)<=1。不可能發生事件機率為0,不存在機率更低狀态。確定一定發生事件機率為1,不存在機率更高狀态。SUM(x ELEMENT(X),P(x))=1。歸一化(normalized)。

離散型随機變量x有k個不同狀态,x均勻分布(uniform distribution),每個狀态均等可能。PMF,P(x=x i)=1/k。所有i成立。k是一個正整數,1/k是正的。SUM(i, P(x=x i))=SUM(i, 1/k)=k/k=1。分布滿足歸一化條件。

連續型變量和機率密度函數。連續型随機變量,機率密度函數(probability density function,PDF)描述機率分布。函數p是機率密度函數。p定義域是x所有可能狀态集合。FORALL(x) ELEMENT(X),P(x)>=0,不要求p(x)<=1。INTEGRAL(p(x)dx)=1 。機率密度函數p(x)給出落在面積為DELTA(x)無限小區域内機率為p(x)DELTA(x)。機率密度函數求積分,獲得點集真實機率品質。x落在集合S中的機率,p(x)對集合求積分得到。單變量,x落在區間[a,b]機率是INTEGRAL([a,b],p(x)dx) 。

實數區間均勻分布。函數u(x;a,b),a和b 是區間端點,滿足b>a。符号";"表示以什麼為參數。x作函數自變量,a和b作定義函數參數。確定區間外沒有機率,所有x NOTELEMENT([a,b]),令u(x;a,b)=0。在[a,b]内,u(x;a,b)=1/(b-a)。任何一點都非負。積分為1。x~U(a,b)表示x在[a,b]上均勻分布。

邊緣機率。

定義在子集上的機率分布為邊緣機率分布(marginal probability distribution)。離散型随機變量x和y,知道P(x,y),求和法則(sum rule)計算FORALL(x) ELEMENT(X),P(x=x)=SUM(y,P(x=x,y=y)) 。邊緣機率名稱來源手算邊緣機率計算過程。P(x,y)每個值被寫在每行表示不同x值、每清單示不同y值網格中,對網絡中每行求和,求和結果P(x)寫在每行右邊紙邊緣處。連續型變量,用積分替代求和,p(x)=INTEGRAL(p(x,y)dy。

條件機率。

某個事件上在給定其他事件發生時出現機率。給定x=x,y=y發生條件機率記P(y=y|x=x)。P(y=y|x=x)=P(y=y,x=x)/P(x=x)。條件機率隻在P(x=x)>0有定義。不能計算給定在永遠不會發生事件上上的條件機率。不要把條件機率和計算當采用某個動作後會發生什麼相混淆。

條件機率鍊式法則。

任何多元随機變量聯合機率分布,都可以分解成隻有一個變量的條件機率相乘形式。P(x (1) ,…,x (n) )=P(x (1) )PRODUCT(i=2,n,P(x (i) |x (i) ,…,x (i-1) ))。機率鍊式法則(chain rule)或乘法法則(product rule)。從條件機率定義得到,使用兩次定義得到,P(a,b,c)=P(a|b,c)P(b,c)。P(b,c)=P(b|c)P(c)。P(a,b,c)=P(a|b,c)P(b|c)P(c)。

獨立性和條件獨立性。

兩個随機變量x和y,機率分布表示成兩個因子乘積形式,一個因子隻包含x,另一個因子隻包含y,兩個随機變量互相獨立(independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y)=p(x=x)p(y=y)。x和y的條件機率分布對于z的每一個值都寫成乘積形式,随機變量x和y在給定随機變量z時條件獨立(conditionally independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y|z=z)=p(x=x|z=z)p(y=y|z=z)。簡化形式表示獨立笥和條件獨立性,x UPTACK(y)表示x和y互相獨立,x UPTACK(y)|z表示x和y在給定z時條件獨立。

期望、方差和協方差。

函數f(x)關于某分布P(x)的期望(expectation)或期望值(expected value),當x由P産生,f作用于x,f(x)的平均值。對于離散型随機變量,求和得到,E x~P [f(x)]=SUM(x,P(x)f(x))。連續型随機變量,求積分得到,E x~p [f(x)]=INTEGRAL(p(x)f(x)dx) 。機率分布在上下文指明,隻寫出期望作用随機變量名稱簡化,Ex[f(x)]。期望作用随機變量明确,不寫腳标,E[f(x)]。預設,假設E[.]表示對方括号内所有随機變量值求平均。沒有歧義時,可以省略方括号。期望線性,E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依賴x。

方差(variance)衡量,x依據機率分布采樣時,随機變量x函數值差異。Var(f(x))=E[(f(x)-E[f(x)]) 2 ]。方差很小時,f(x)值形成簇比較接近期望值。方差的平方根為标準差(standard deviation)。

協方差(covariance),給出兩個變量線性相關性強度及變量尺度。Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。協方差絕對值很大,變量值變化很大,距離各自的均值很遠。協方差為正,兩個變量傾向于同時取得相對較大值。協方差為負,一個變量傾向于取較大值,另一個變量傾向于取較小值。其他衡量名額,相關系數(correlation),每個變量貢獻歸一化,隻衡量變量相關性,不受各個變量尺度大小影響。

協方差和相關性有聯系,是不同概念。聯系。兩個變量互相獨立,協方差為零。兩個變量協義差不為零,一定相關。獨立性和協方差性質完全不同。兩個變量協方差為零,一定沒有互相依賴,但具有零協方差可能。從區間[-1,1]均勻分布采樣一個實數x,對一個随機變量s采樣。s以1/2機率值為1,否則為-1。令y-sx生成一個随機變量y。x和y不互相獨立,x完全決定y尺度.Cov(x,y)=0。

随機向量x ELEMENT(R n )協方差矩陣(convariance matrix)是n*n矩陣,滿足,Cov(x) i,j =Cov(x i ,x j )。協方差矩陣對角元是方差,Cov(x i ,x i )=Var(x i )。

參考資料:

《深度學習》

歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi

我有一個微信群,歡迎一起學深度學習。

繼續閱讀