【科普入門】機率與分布密度貝葉斯理論入門資料挖掘基礎入門

機率Probability，先驗機率Prior，後驗機率Posterior

機率是一個衡量不确定性的工具。

一個例子：我們來估測某一個人的生日是十月份的機率，在沒有任何資料樣本的情況下，我們可以估計這個機率是\(Pr(October) = \frac{1}{12}\approx8.3%\).

現在假設我們有了幾萬個樣本，通過統計這幾萬個樣本的生日月份，繪制出資料分布圖：

然後通過計算，根據這個資料樣本，發現總共有7%的人的生日是十月份的，這就與沒有資料的8.3%的估計不同了。\(Pr(October|D)=7\%\)。

這裡的先驗機率Prior，就是沒有資料樣本時候的估計機率，就是8.3%；
後驗機率Posterior，就是有了資料樣本的估計機率7%。

機率分布

機率分布就是probability distribution
如果這個随機變量X是離散的，就是像上面的例子一樣，一月二月三月這樣離散的，那麼就叫做機率分布probability distribution
如果這個随機變量X是一個連續變量，那麼就叫做機率密度分布probability density function

累積分布函數CDF

Cumulative distribution function累積分布函數
按照上面生日的例子來說，累積分布函數就是前面機率的累加，\(Pr(X\leq October)\)，就是這個人的出生的月份在1月到10月之間的機率，就是把機率分布累加起來了。

多元随機變量Multivariate Random Variable

對于多元随機變量，機率分布就叫做聯合機率分布joint distribution。如果多元随機變量是連續的，那麼就是聯合機率密度分布Joint density distribution.

獨立independent

對于多元随機變量而言，随機變量之間是要考慮是否獨立。兩個變量之間沒有關系，就是獨立。

If there is no relationship between two random variables, they are called independent.
條件獨立conditionally independent就是給定一個條件Z，X和Y才是獨立的。

這裡注意幾個概念：

Correlation和relationship不一樣，relationship一般就是指是否獨立independence。
Correlation是指兩個變量之間的相關性，與獨立沒有必然聯系。
因果性causaation，一般也是指relationship和independence。
Correlation可能存在，但是因果性不存在；correlation可能不存在，但是因果性存在，兩者之間不存在必然關系。但是一般來說因果性存在，那麼correlation應該是存在。

模型與樣本

從資料挖掘的角度來說，我們并不是用線性回歸、神經網絡這些模型去拟合樣本。上圖中的MODEL不是指線性歸回這些的模型，而是一種更加本質的東西，是萬物運作的機理。我們這些樣本就是從這萬物機理中獲得到的觀測資料，我們無法直接獲得到這個本質的機理，是以隻能通過觀測擷取樣本，然後用樣本訓練模型去拟合這個本質的機理。

每一個本質都看作一個機率密度，每一個樣本其實可以看做從本質中的采樣。樣本通過機率從本質中進行采樣，然後通過樣本的資料描述Statistical inference來對本質進行描述。而這個Statistical inference就是我們使用的線性回歸，貝葉斯理論，神經網絡這些模型。

貝葉斯理論Bayes theorem

考慮上面的例子，想要判斷一個人的生日是那個月份。我們提出了一個假設，假設這個人的生日是十月份的，如何驗證這個假設呢？

通常我們使用貝葉斯理論Bayes theorem去驗證一個假設，再給出一個資料庫的情況下。
假設假設這個人的生日是十月份的用\(\theta\)來表示，
是以之前提到的先驗機率Prior:\(Pr(\theta)=\frac{1}{12}\approx8.3%\)
後驗機率Posterior：\(Pr(\theta|D)=7\%\)，就是給出了資料庫的機率。
似然Likelihood：\(Pr(D|\theta)\)，就是後驗機率的反過來的機率。
貝葉斯理論就是将上面三個機率結合起來：\(Pr(\theta|D)=\frac{Pr(D|\theta)*Pr(\theta)}{Pr(D)}\)

按照上面的例子，這個人的生日的月份，我們給出的答案應該是\(Pr(\theta|D)\)最大的那個假設，\(Pr(October|D)=7\%\)，是以生日是十月份的機率是7%。是以我們可以得到下面的公式，一般也叫做天真貝葉斯分類器：

【科普入門】機率與分布密度貝葉斯理論入門資料挖掘基礎入門

機率Probability，先驗機率Prior，後驗機率Posterior

機率分布

累積分布函數CDF

多元随機變量Multivariate Random Variable

獨立independent

模型與樣本

貝葉斯理論Bayes theorem

繼續閱讀

Kd Tree算法詳解

AI面試之SVM推導

一分鐘速學 | NMS, IOU 與 SoftMax

大彙總 | 一文學會八篇經典CNN論文

項目總結 | 九種缺失值處理方法總有一種适合你

圖像增強 | CLAHE 限制對比度自适應直方圖均衡化

項目總結 | 對【時間】建構的特征工程

幹貨 | 這可能全網最好的BatchNorm詳解

【科普入門】機率與分布密度 貝葉斯理論入門 資料挖掘基礎入門

機率Probability，先驗機率Prior，後驗機率Posterior

機率分布

累積分布函數CDF

多元随機變量Multivariate Random Variable

獨立independent

模型與樣本

貝葉斯理論Bayes theorem

繼續閱讀

【科普入門】機率與分布密度貝葉斯理論入門資料挖掘基礎入門