天天看點

機率論入門:基本概念基本概念

基本概念

定義和符号

通常機率至少和一個事件有關。這個事件可以是任何事。最簡單的例子包括投骰和從口袋中抓取有顔色的球。在這些例子中,事件的結果是随機的(投骰時無法确定最終的點數),是以表示這些事件的結果的變量稱為随機變量(常常縮寫為RV)。

我們常常想知道一個随機變量取一個特定值的機率。例如,投擲一個均質的6面骰時,點數是3的機率是多少?“均質”一詞很重要,因為它告訴我們骰子落地時6個面(1、2、3、4、5、6)朝上的機率是相等的。從直覺上,你也許會說答案是1/6。沒錯!但我們如何以數學的形式表達這個呢?好,首先我們需要了解這裡的随機變量是與投骰相關的事件結果。通常,随機變量用大寫字母表示,這裡,我們用X表示。是以,我們想知道X=3的機率。但是數學家寫東西的時候可懶了,“機率是多少?”簡寫為字母P。是以,“當我投一個均質的6面骰時,點數為3的機率是多少?”在數學上記作“P(X=3)”。

機率的三種類型

我們上面介紹了随機變量和機率的一些記法。然而,機率可能會變得非常複雜。也許首先需要了解的是機率有不同的類型。

邊緣機率(Marginal Probability) 事件A的邊緣機率為A發生的機率P(A)。例子:從一副撲克牌中抽出一張紅色的牌的邊緣機率是P(紅) = 0.5

聯合機率(Joint Probability) 兩個以上事件的交集的機率。我們可以用文氏圖(Venn Diagram)可視化這一概念,我們用兩個圓代表兩個事件,兩個圓重疊的部分即為聯合機率。(見下圖)事件A和B的聯合機率寫作P(A ∩ B)。例子:從一副撲克牌中抽出一張紅色的4的機率為P(紅4) = 2/52 = 1/26。(一副撲克牌有52張牌,想抽到的是紅心4和方塊4)。後面我們會詳細讨論這個例子。

機率論入門:基本概念基本概念

條件機率(Conditional Probability) 條件機率是已知某(些)事件已經發生的前提下,另一(些)事件發生的機率。已知事件B已經發生時,事件A發生的條件機率寫作P(A|B)。例子:已知我們抽到了一張紅色的牌,這張牌是4的機率為P(4|紅) = 2/26 = 1/13 (一副撲克牌有52張牌,26張紅色的,26張黑色的。現在因為我們已經抽到了一張紅色的牌,我們知道我們抽取的範圍是26張牌,是以第一個除數是26)。

連接配接機率類型:乘法法則

乘法法則是一個連接配接所有3種機率類型的美麗等式:

機率論入門:基本概念基本概念

例子的進一步解釋

有時候聯合機率和條件機率的差別相當令人困惑,是以讓我們嘗試用抽撲克牌的例子來了解兩者的差別。

當我們想要知道抽到一張紅色的4的撲克牌的機率(紅色和4的聯合機率)時,我想讓你想象一下,把所有52張牌面朝下放置,然後随機選中一張。在這52張牌中,有2張是紅色的,同時數字是4(紅心4和方塊4)。是以聯合機率是2/52 = 1/26。

而當我們想要知道已知抽中的牌是紅色的時候,抽中數字是4的牌的機率,即條件機率P(4|紅)時,我想讓你再想象一下有52張牌。不過,在随機抽取一張牌之前,你給所有撲克牌排了個序,選中了所有26張紅色的牌。現在你把這26張牌面朝下放置,然後随機選擇一張牌。同樣,這些紅色的牌中有兩張數字為4,是以條件機率是2/26 = 1/13

如果你偏好數學,那我們也可以轉而使用上面定義的乘法法則來計算聯合機率。我們首先整理一下等式,讓聯合機率P(A ∩ B)成為等式的主題(換句話說,我們把P(A ∩ B) 放到等号的左邊,把其他項都放到等号的右邊)。重新整理後,我們得到P(A ∩ B) = P(A|B) ✕ P(B)。讓我們設定事件A是牌的數字為4的事件,事件B是牌的顔色是紅色的事件。如前所述,P(A|B) = 1/13,而P(B) = 1/2(一半的牌是紅色的)。是以P(A ∩ B) = 1/13 ✕ 1/2 = 1/26。

機率法則:“和”與“或”

在聯合機率中,我們已經遇到過“和”的情況,然而,我們并不知道如何計算“和”的機率。是以讓我們來看一個例子。假設我們有兩個事件:事件A——抛擲一枚均質的硬币,事件B——投擲一枚均質的骰子。我們也許會想知道骰子的點數是6而硬币正面朝上的機率。是以,為了計算骰子點數為6和硬币正面朝上的機率,我們可以把上面的乘法法則重新整理一下P(A ∩ B) = P(A|B) ✕ P(B)。我們知道事件A是丢硬币而事件B是扔骰子。是以P(A|B)意味着“當我們已經扔出一枚點數為6的骰子時,抛出一枚正面朝上的硬币的機率”是多少?”直覺告訴我們,丢硬币與扔骰子無關。這兩個事件是獨立(independent)事件。在這個場景下,不管骰子的點數是多少,丢硬币得到的結果都是一樣的。數學上我們将其表達為P(A|B) = P(A)。是以,當事件互相獨立時,聯合機率為獨立事件的邊緣機率的乘積:P(A ∩ B) = P(A) ✕ P(B)。是以P(硬币正面朝上和骰子點數為6) = P(A=正面, B=6) = 1/2 x 1/6 = 1/12。

注意上面的P(A=正面, B=6),事件之間的逗号是聯合機率的簡寫。

值得注意的是,在現實世界的場景中,事件被假定為獨立的(即使事實上并非如此)。這主要是因為,假定事件是獨立的大大簡化了數學。附帶的好處是所得的結果通常很有用。在資料科學中,樸素貝葉斯可能是這方面最常見的例子。樸素貝葉斯通常能很好地處理文本分類問題。

在“和”法則中,我們将單獨機率相乘。在“或”的場景下,我們需要将單獨機率相加,然後減去交集。在數學上,我們将其寫作P(A ∪ B) = P(A) + P(B) - P(A ∩ B)。你可能會問,為什麼我們要這麼做?好吧,讓我們回顧一下上文中的文氏圖。如果我們把A圓和B圓相加,那麼其中的重疊部分算了兩次。是以,我們需要減去交集。

是以,讓我們把上面的例子改成尋找投出點數為6的骰子或扔出正面向上的硬币的機率。這是P(硬币正面向上或骰子點數為6) = P(A=正面 ∪ B=6) = 1/2 + 1/6 - 1/12 = 7/12

注意,我們使用并集符号∪表示“或”的場景。

有些情況下我們不必減去交集。如果文氏圖中的兩個圓沒有重疊部分,那我們自然就不用減去交集了。當代表兩個事件的圓沒有重疊部分的時候,我們說這兩個事件互斥(mutually exclusive)。這意味着兩者的交集為零,在數學上寫作P(A ∩ B) = 0。讓我們看一個例子。假定我們想知道擲出點數為5或6的骰子的機率。這兩個事件是互斥的,因為我們不可能同時擲出5點和6點。是以,它們在文氏圖中的圓互不重疊。是以,擲出5點或6點的機率等于1/6 + 1/6 = 1/3 (我們沒有減去任何東西)。

參考:論智

繼續閱讀