學習筆記DL008:機率論，随機變量，機率分布，邊緣機率，條件機率，期望、方差、協方差

機率和資訊論。

機率論，表示不确定性聲明數學架構。提供量化不确定性方法，提供導出新不确定性聲明(statement)公理。人工智能領域，機率法則，AI系統推理，設計算法計算機率論導出表達式。機率和統計理論分析AI系統行為。機率論提出不确定聲明，在不确定性存在情況下推理。資訊論量化機率分布不确定性總量。Jaynes(2003)。

機器學習經常處理不确定量，有時處理随機(非确定性)量。20世紀80年代，研究人員對機率論量化不确定性提出信服論據。Pearl(1998)。

不确定性來源。被模組化系統記憶體的随機性。不完全觀測，确定系統不能觀測到所有驅動系統行為變量，也呈随機性。不完全模組化，模型舍棄觀測資訊，導緻預測不确定性。簡單而不确定規則比複雜而确定規則更實用，即使真正規則是确定的并且模組化型系統足夠精确容納複雜規則。

機率論分析事件發生頻率。事件可以重複。結果發生機率p，反複無限次，有p比例會導緻某個結果。機率表示信任度(degree of belief)。直接與事件發生的頻率相聯系，頻率派機率(frequentist probability)。涉及到确定性水準，貝葉斯機率(Bayesian probability)。不确定性常識推理，列出若幹條期望性質，滿足唯一方法是貝葉斯機率和頻率機率等同。Ramsey(1926)。機率，處理不确定性邏輯擴充。邏輯提供形式化規則，給定命題真假，判斷另一些命題真假。機率論提供形式化規則，給定命題似然，計算其他命題為真似然。

随機變量(random variable)。

随機取不同值變量。無格式字型(plain typeface)小寫字母表示随機變量，手寫體小寫字母表示随機變量取值。随機變量對可能狀态描述。伴随機率分布批定每個狀态可能性。随機變量可以離散或連續。離散随機變量有限或可數無限多狀态。可能沒有數值。連續随機變量伴随實數值。

機率分布(probability distribution)。

随機變量或一簇随機變量每個狀态可能性大小。描述機率分布方式取決随機變量離散還是連續。

離散型變量和機率品質函數。離散弄變量機率分布用機率品質函數(probability mass function,PMF)描述。大寫字母P表示機率品質函數。每個随機變量有一個不同機率品質函數，根據随機變量推斷所用PMF。機率品質函數将随機變量每個狀态映射到随機變量取該狀态機率。x=x機率用P(x)表示，機率1表示x=x确定，機率0表示x=x不可能發生。明确寫出随機變量名稱，P(x=x)。定義随機變量，用~符号說明遵循分布，x~P(x)。機率品質同時作用多個随機變量。多個變量機率分布為聯合機率分布(joint probability distribution)。P(x=x,y=y)表示x=x和y=y同時發生機率。簡寫P(x,y)。函數P是随機變量x的PMF，P定義域必須是x所有可能狀态集合。FORALL(x) ELEMENT(X)，0<=P(x)<=1。不可能發生事件機率為0，不存在機率更低狀态。確定一定發生事件機率為1,不存在機率更高狀态。SUM(x ELEMENT(X),P(x))=1。歸一化(normalized)。

離散型随機變量x有k個不同狀态，x均勻分布(uniform distribution)，每個狀态均等可能。PMF，P(x=x i)=1/k。所有i成立。k是一個正整數，1/k是正的。SUM(i, P(x=x i))=SUM(i, 1/k)=k/k=1。分布滿足歸一化條件。

連續型變量和機率密度函數。連續型随機變量，機率密度函數(probability density function,PDF)描述機率分布。函數p是機率密度函數。p定義域是x所有可能狀态集合。FORALL(x) ELEMENT(X)，P(x)>=0，不要求p(x)<=1。INTEGRAL(p(x)dx)=1 。機率密度函數p(x)給出落在面積為DELTA(x)無限小區域内機率為p(x)DELTA(x)。機率密度函數求積分，獲得點集真實機率品質。x落在集合S中的機率，p(x)對集合求積分得到。單變量，x落在區間[a,b]機率是INTEGRAL([a,b],p(x)dx) 。

實數區間均勻分布。函數u(x;a,b)，a和b 是區間端點，滿足b>a。符号";"表示以什麼為參數。x作函數自變量，a和b作定義函數參數。確定區間外沒有機率，所有x NOTELEMENT([a,b])，令u(x;a,b)=0。在[a,b]内，u(x;a,b)=1/(b-a)。任何一點都非負。積分為1。x~U(a,b)表示x在[a,b]上均勻分布。

邊緣機率。

定義在子集上的機率分布為邊緣機率分布(marginal probability distribution)。離散型随機變量x和y，知道P(x,y)，求和法則(sum rule)計算FORALL(x) ELEMENT(X),P(x=x)=SUM(y,P(x=x,y=y)) 。邊緣機率名稱來源手算邊緣機率計算過程。P(x,y)每個值被寫在每行表示不同x值、每清單示不同y值網格中，對網絡中每行求和，求和結果P(x)寫在每行右邊紙邊緣處。連續型變量，用積分替代求和，p(x)=INTEGRAL(p(x,y)dy。

條件機率。

某個事件上在給定其他事件發生時出現機率。給定x=x,y=y發生條件機率記P(y=y|x=x)。P(y=y|x=x)=P(y=y,x=x)/P(x=x)。條件機率隻在P(x=x)>0有定義。不能計算給定在永遠不會發生事件上上的條件機率。不要把條件機率和計算當采用某個動作後會發生什麼相混淆。

條件機率鍊式法則。

獨立性和條件獨立性。

兩個随機變量x和y，機率分布表示成兩個因子乘積形式，一個因子隻包含x，另一個因子隻包含y，兩個随機變量互相獨立(independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y)=p(x=x)p(y=y)。x和y的條件機率分布對于z的每一個值都寫成乘積形式，随機變量x和y在給定随機變量z時條件獨立(conditionally independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y|z=z)=p(x=x|z=z)p(y=y|z=z)。簡化形式表示獨立笥和條件獨立性，x UPTACK(y)表示x和y互相獨立，x UPTACK(y)|z表示x和y在給定z時條件獨立。

期望、方差和協方差。

函數f(x)關于某分布P(x)的期望(expectation)或期望值(expected value)，當x由P産生，f作用于x，f(x)的平均值。對于離散型随機變量，求和得到，E x~P [f(x)]=SUM(x,P(x)f(x))。連續型随機變量，求積分得到，E x~p [f(x)]=INTEGRAL(p(x)f(x)dx) 。機率分布在上下文指明，隻寫出期望作用随機變量名稱簡化，Ex[f(x)]。期望作用随機變量明确，不寫腳标，E[f(x)]。預設，假設E[.]表示對方括号内所有随機變量值求平均。沒有歧義時，可以省略方括号。期望線性，E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依賴x。

方差(variance)衡量，x依據機率分布采樣時，随機變量x函數值差異。Var(f(x))=E[(f(x)-E[f(x)]) 2 ]。方差很小時，f(x)值形成簇比較接近期望值。方差的平方根為标準差(standard deviation)。

協方差(covariance)，給出兩個變量線性相關性強度及變量尺度。Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。協方差絕對值很大，變量值變化很大，距離各自的均值很遠。協方差為正，兩個變量傾向于同時取得相對較大值。協方差為負，一個變量傾向于取較大值，另一個變量傾向于取較小值。其他衡量名額，相關系數(correlation)，每個變量貢獻歸一化，隻衡量變量相關性，不受各個變量尺度大小影響。

協方差和相關性有聯系，是不同概念。聯系。兩個變量互相獨立，協方差為零。兩個變量協義差不為零，一定相關。獨立性和協方差性質完全不同。兩個變量協方差為零，一定沒有互相依賴，但具有零協方差可能。從區間[-1,1]均勻分布采樣一個實數x，對一個随機變量s采樣。s以1/2機率值為1,否則為-1。令y-sx生成一個随機變量y。x和y不互相獨立，x完全決定y尺度.Cov(x,y)=0。

随機向量x ELEMENT(R n )協方差矩陣(convariance matrix)是n*n矩陣，滿足，Cov(x) i,j =Cov(x i ,x j )。協方差矩陣對角元是方差，Cov(x i ,x i )=Var(x i )。

參考資料：

《深度學習》

歡迎推薦上海機器學習工作機會，我的微信：qingxingfengzi

我有一個微信群，歡迎一起學深度學習。

學習筆記DL008:機率論，随機變量，機率分布，邊緣機率，條件機率，期望、方差、協方差

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普