機率論是對不确定性的研究。需要依靠機率論中的概念來推導機器學習算法。這篇涵蓋适用于CS229的機率論基礎。機率論的數學理論非常複雜,并且涉及到“分析”的一個分支:測度論。在這篇筆記中,提供了機率的一些基本處理方法,但是不會涉及到這些更複雜的細節。
1. 機率的基本要素
為了定義集合上的機率,需要一些基本元素,
- 樣本空間:随機實驗的所有結果的集合。在這裡,每個結果
-
事件集(事件空間):元素的集合(稱為事件)是的子集(即每個是一個實驗可能結果的集合)。
備注:需要滿足以下三個條件:
(1)
(2)
(3)
- 機率度量:函數是一個的映射,滿足以下性質:
- 對于每個,,
- 如果是互不相交的事件 (即當時,
以上三條性質被稱為機率公理。
舉例:
考慮投擲六面骰子的事件。樣本空間為。最簡單的事件空間是平凡事件空間.另一個事件空間是的所有子集的集合。對于第一個事件空間,滿足上述要求的唯一機率度量由,給出。對于第二個事件空間,一個有效的機率度量是将事件空間中每個事件的機率配置設定為,這裡 是這個事件集合中元素的數量;例如,。
性質:
- 如果,則:$ P(A) \leq P(B)$
- (布爾不等式):
- (全機率定律):如果是一些互不相交的事件并且它們的并集是,那麼它們的機率之和是1
1.1 條件機率和獨立性
假設是一個機率非0的事件,我們定義在給定的條件下
換句話說,)是度量已經觀測到事件發生的情況下事件發生的機率,兩個事件被稱為獨立事件當且僅當(或等價地,)。是以,獨立性相當于是說觀察到事件對于事件的機率沒有任何影響。
2. 随機變量
考慮一個實驗,翻轉10枚硬币,想知道正面硬币的數量。這裡,樣本空間的元素是長度為10的序列。例如,我們可能有。然而,在實踐中,我們通常不關心獲得任何特定正反序列的機率。相反,我們通常關心結果的實值函數,比如我們10次投擲中出現的正面數,或者最長的背面長度。在某些技術條件下,這些函數被稱為随機變量。
更正式地說,随機變量是一個的函數。通常,我們将使用大寫字母或更簡單的(其中隐含對随機結果的依賴)來表示随機變量。我們将使用小寫字母來表示随機變量的值。
舉例:
在上面的實驗中,假設是在投擲序列中出現的正面的數量。假設投擲的硬币隻有10枚,那麼隻能取有限數量的值,是以它被稱為離散随機變量。這裡,與随機變量相關聯的集合取某個特定值的機率為:
舉例:
假設是一個随機變量,表示放射性粒子衰變所需的時間。在這種情況下,具有無限多的可能值,是以它被稱為連續随機變量。我們将在兩個實常數和之間取值的機率(其中)表示為:
2.1 累積分布函數
為了指定處理随機變量時使用的機率度量,通常可以友善地指定替代函數(CDF、PDF和PMF),在本節和接下來的兩節中,将依次描述這些類型的函數。
累積分布函數(CDF) 是函數,它将機率度量指定為:
通過使用這個函數,可以計算任意事件發生的機率。圖1顯示了一個樣本CDF函數。
圖1:一個累計分布函數(CDF)
性質:
2.2 機率品質函數
當随機變量取有限種可能值(即,是離散随機變量)時,表示與随機變量相關聯的機率度量的更簡單的方法是直接指定随機變量可以假設的每個值的機率。特别地,機率品質函數(PMF)是函數 ,這樣:
在離散随機變量的情況下,我們使用符号表示随機變量可能假設的一組可能值。例如,如果是一個随機變量,表示十次投擲硬币中的正面數,那麼。
性質:
2.3 機率密度函數
對于一些連續随機變量,累積分布函數處可微。在這些情況下,我們将**機率密度函數(PDF)**定義為累積分布函數的導數,即:
請注意,連續随機變量的機率密度函數可能并不總是存在的(即,如果它不是處處可微)。
根據微分的性質,對于很小的,
CDF和PDF(當它們存在時!)都可用于計算不同僚件的機率。但是應該強調的是,任意給定點的**機率密度函數(PDF)**的值不是該事件的機率,即。例如,可以取大于1的值(但是在的任何子集上的積分最多為1)。
性質:
2.4 期望
假設是一個離散随機變量,其PMF為 ,是一個任意函數。在這種情況下,可以被視為随機變量,我們将的期望值定義為:
如果是一個連續的随機變量,其PDF 為,那麼的期望值被定義為:
直覺上,的期望值可以被認為是對于不同的值可以取的值的“權重平均值”,其中權重由或給出。作為上述情況的特例,請注意,随機變量本身的期望值,是通過令得到的,這也被稱為随機變量的平均值。
性質:
- 對于任意常數,
- 對于任意常數,
- (線性期望):
- 對于一個離散随機變量,
2.5 方差
随機變量的方差是随機變量的分布圍繞其平均值集中程度的度量。形式上,随機變量的方差定義為:
使用上一節中的性質,可以導出方差的替代表達式:
其中第二個等式來自期望的線性,以及相對于外層期望實際上是常數的事實。
性質:
- 對于任意常數,
- 對于任意常數,
舉例:
計算均勻随機變量的平均值和方差,任意,其PDF為 ,其他地方為0。
舉例:
假設對于一些子集,有,計算?
離散情況:
連續情況:
2.6 一些常見的随機變量
離散随機變量
- 伯努利分布:硬币擲出正面的機率為(其中:),如果正面發生,則為1,否則為0。
- 二項式分布:擲出正面機率為(其中:)的硬币次獨立投擲中正面的數量。
- 幾何分布:擲出正面機率為(其中:)的硬币第一次擲出正面所需要的次數。
- 泊松分布:用于模拟罕見事件頻率的非負整數的機率分布(其中:)。
連續随機變量
- 均勻分布:在和之間每個點機率密度相等的分布(其中:)。
- 指數分布:在非負實數上有衰減的機率密度(其中:)。
- 正态分布:又被稱為高斯分布。
一些随機變量的機率密度函數和累積分布函數的形狀如圖2所示。
圖2:一些随機變量的機率密度函數(PDF)]和累積分布函數(CDF)
下表總結了這些分布的一些特性:
分布 | 機率密度函數(PDF)或者機率品質函數(PMF) | 均值 | 方差 |
(伯努利分布) | |||
(二項式分布) | 其中: | ||
(幾何分布) | 其中: | ||
(泊松分布) | 其中: | ||
(均勻分布) | 存在 | ||
(高斯分布) | |||
(指數分布) |
3. 兩個随機變量
到目前為止,已經考慮了單個随機變量。然而,在許多情況下,在随機實驗中,可能有不止一個感興趣的量。例如,在一個擲硬币十次的實驗中,可能既關心出現的正面數量,也關心連續最長出現正面的長度。在本節中,考慮兩個随機變量的設定。
3.1 聯合分布和邊緣分布
假設有兩個随機變量,一個方法是分别考慮它們。隻需要和。但是如果想知道在随機實驗的結果中,和同時假設的值,需要一個更複雜的結構,稱為和的聯合累積分布函數,定義如下:
可以證明,通過了解聯合累積分布函數,可以計算出任何涉及到和的事件的機率。
聯合CDF: 和每個變量的聯合分布函數和分别由下式關聯:
這裡我們稱和為 的邊緣累積機率分布函數。
性質:
3.2 聯合機率和邊緣機率品質函數
如果和是離散随機變量,那麼聯合機率品質函數 由下式定義:
這裡, 對于任意,,, 并且
兩個變量上的聯合PMF分别與每個變量的機率品質函數有什麼關系?事實上:
對于類似。在這種情況下,我們稱為的邊際機率品質函數。在統計學中,将一個變量相加形成另一個變量的邊緣分布的過程通常稱為“邊緣化”。
3.3 聯合機率和邊緣機率密度函數
假設和是兩個連續的随機變量,具有聯合分布函數。在在和中處處可微的情況下,我們可以定義聯合機率密度函數:
如同在一維情況下,,而是:
請注意,機率密度函數的值總是非負的,但它們可能大于1。盡管如此,可以肯定的是
與離散情況相似,我們定義:
作為的邊際機率密度函數(或邊際密度),對于也類似。
3.4 條件機率分布
條件分布試圖回答這樣一個問題,當我們知道必須取某個值時,上的機率分布是什麼?在離散情況下,給定的條件機率品質函數是簡單的:
假設分母不等于0。
在連續的情況下,在技術上要複雜一點,因為連續随機變量的機率等于零。忽略這一技術點,我們通過類比離散情況,簡單地定義給定的條件機率密度為:
假設分母不等于0。
3.5 貝葉斯定理
當試圖推導一個變量給定另一個變量的條件機率表達式時,經常出現的一個有用公式是貝葉斯定理。
對于離散随機變量和:
對于連續随機變量和:
3.6 獨立性
如果對于和的所有值,,則兩個随機變量和是獨立的。等價地,
- 對于離散随機變量, 對于任意,,。
- 對于離散随機變量,當對于任意且。
- 對于連續随機變量,對于任意。
- 對于連續随機變量,,當對于任意。
非正式地說,如果“知道”一個變量的值永遠不會對另一個變量的條件機率分布有任何影響,那麼兩個随機變量和是獨立的,也就是說,你隻要知道和就知道關于這對變量的所有資訊。以下引理将這一觀察形式化:
引理3.1
如果和是獨立的,那麼對于任何,我們有:
利用上述引理,我們可以證明如果與無關,那麼的任何函數都與的任何函數無關。
3.7 期望和協方差
假設我們有兩個離散的随機變量,并且是這兩個随機變量的函數。那麼的期望值以如下方式定義:
對于連續随機變量,,類似的表達式是:
我們可以用期望的概念來研究兩個随機變量之間的關系。特别地,兩個随機變量的協方差定義為:
使用類似于方差的推導,我們可以将它重寫為:
在這裡,說明兩種協方差形式相等的關鍵步驟是第三個等号,在這裡使用了這樣一個事實,即和實際上是常數,可以被提出來。當時,和不相關。
性質:
- (期望線性)
- 如果和互相獨立, 那麼
- 如果和互相獨立, 那麼.
4. 多個随機變量
上一節介紹的概念和想法可以推廣到兩個以上的随機變量。特别是,假設有個連續随機變量,。在本節中,為了表示簡單,隻關注連續的情況,對離散随機變量的推廣工作類似。
4.1 基本性質
我們可以定義的聯合累積分布函數、聯合機率密度函數,以及給定時的邊緣機率密度函數為:
為了計算事件的機率,我們有:
鍊式法則:
從多個随機變量的條件機率的定義中,可以看出:
獨立性:對于多個事件,,我們說 是互相獨立的,當對于任何子集,有:
同樣,說随機變量是獨立的,如果:
這裡,互相獨立性的定義隻是兩個随機變量獨立性到多個随機變量的自然推廣。
獨立随機變量經常出現在機器學習算法中,其中假設屬于訓練集的訓練樣本代表來自某個未知機率分布的獨立樣本。為了明确獨立性的重要性,考慮一個“壞的”訓練集,我們首先從某個未知分布中抽取一個訓練樣本,然後将完全相同的訓練樣本的個副本添加到訓練集中。在這種情況下,我們有:
盡管訓練集的大小為,但這些例子并不獨立!雖然這裡描述的過程顯然不是為機器學習算法建立訓練集的明智方法,但是事實證明,在實踐中,樣本的不獨立性确實經常出現,并且它具有減小訓練集的“有效大小”的效果。
4.2 随機向量
假設有n個随機變量。當把所有這些随機變量放在一起工作時,經常會發現把它們放在一個向量中是很友善的…稱結果向量為随機向量(更正式地說,随機向量是從到的映射)。應該清楚的是,随機向量隻是處理個随機變量的一種替代符号,是以聯合機率密度函數和綜合密度函數的概念也将适用于随機向量。
期望:
考慮中的任意函數。這個函數的期望值被定義為
其中,是從到的個連續積分。如果是從到的函數,那麼的期望值是輸出向量的元素期望值,即,如果是:
那麼,
協方差矩陣:對于給定的随機向量,其協方差矩陣是平方矩陣,其輸入由給出。從協方差的定義來看,我們有:
其中矩陣期望以明顯的方式定義。
協方差矩陣有許多有用的屬性:
- ;也就是說,是正半定的。
- ;也就是說,是對稱的。
4.3 多元高斯分布
随機向量上機率分布的一個特别重要的例子叫做多元高斯或多元正态分布。随機向量被認為具有多元正态(或高斯)分布,當其具有均值和協方差矩陣(其中指對稱正定矩陣的空間)
- 首先,在統計算法中對“噪聲”模組化時,它們非常常見。通常,噪聲可以被認為是影響測量過程的大量小的獨立随機擾動的累積;根據中心極限定理,獨立随機變量的總和将趨向于“看起來像高斯”。
- 其次,高斯随機變量便于許多分析操作,因為實際中出現的許多涉及高斯分布的積分都有簡單的封閉形式解。