機率Probability,先驗機率Prior,後驗機率Posterior
- 機率是一個衡量不确定性的工具。
一個例子:我們來估測某一個人的生日是十月份的機率,在沒有任何資料樣本的情況下,我們可以估計這個機率是\(Pr(October) = \frac{1}{12}\approx8.3%\).
現在假設我們有了幾萬個樣本,通過統計這幾萬個樣本的生日月份,繪制出資料分布圖:
然後通過計算,根據這個資料樣本,發現總共有7%的人的生日是十月份的,這就與沒有資料的8.3%的估計不同了。\(Pr(October|D)=7\%\)。
- 這裡的先驗機率Prior,就是沒有資料樣本時候的估計機率,就是8.3%;
- 後驗機率Posterior,就是有了資料樣本的估計機率7%。
機率分布
- 機率分布就是probability distribution
- 如果這個随機變量X是離散的,就是像上面的例子一樣,一月二月三月這樣離散的,那麼就叫做機率分布probability distribution
- 如果這個随機變量X是一個連續變量,那麼就叫做機率密度分布probability density function
累積分布函數CDF
- Cumulative distribution function累積分布函數
- 按照上面生日的例子來說,累積分布函數就是前面機率的累加,\(Pr(X\leq October)\),就是這個人的出生的月份在1月到10月之間的機率,就是把機率分布累加起來了。
多元随機變量Multivariate Random Variable
- 對于多元随機變量,機率分布就叫做聯合機率分布joint distribution。如果多元随機變量是連續的,那麼就是聯合機率密度分布Joint density distribution.
獨立independent
對于多元随機變量而言,随機變量之間是要考慮是否獨立。兩個變量之間沒有關系,就是獨立。
- If there is no relationship between two random variables, they are called independent.
- 條件獨立conditionally independent就是給定一個條件Z,X和Y才是獨立的。
這裡注意幾個概念:
- Correlation和relationship不一樣,relationship一般就是指是否獨立independence。
- Correlation是指兩個變量之間的相關性,與獨立沒有必然聯系。
- 因果性causaation,一般也是指relationship和independence。
- Correlation可能存在,但是因果性不存在;correlation可能不存在,但是因果性存在,兩者之間不存在必然關系。但是一般來說因果性存在,那麼correlation應該是存在。
模型與樣本
從資料挖掘的角度來說,我們并不是用線性回歸、神經網絡這些模型去拟合樣本。上圖中的MODEL不是指線性歸回這些的模型,而是一種更加本質的東西,是萬物運作的機理。我們這些樣本就是從這萬物機理中獲得到的觀測資料,我們無法直接獲得到這個本質的機理,是以隻能通過觀測擷取樣本,然後用樣本訓練模型去拟合這個本質的機理。
每一個本質都看作一個機率密度,每一個樣本其實可以看做從本質中的采樣。樣本通過機率從本質中進行采樣,然後通過樣本的資料描述Statistical inference來對本質進行描述。而這個Statistical inference就是我們使用的線性回歸,貝葉斯理論,神經網絡這些模型。
貝葉斯理論Bayes theorem
考慮上面的例子,想要判斷一個人的生日是那個月份。我們提出了一個假設,假設這個人的生日是十月份的,如何驗證這個假設呢?
- 通常我們使用貝葉斯理論Bayes theorem去驗證一個假設,再給出一個資料庫的情況下。
- 假設假設這個人的生日是十月份的用\(\theta\)來表示,
- 是以之前提到的先驗機率Prior:\(Pr(\theta)=\frac{1}{12}\approx8.3%\)
- 後驗機率Posterior:\(Pr(\theta|D)=7\%\),就是給出了資料庫的機率。
- 似然Likelihood:\(Pr(D|\theta)\),就是後驗機率的反過來的機率。
- 貝葉斯理論就是将上面三個機率結合起來:\(Pr(\theta|D)=\frac{Pr(D|\theta)*Pr(\theta)}{Pr(D)}\)
按照上面的例子,這個人的生日的月份,我們給出的答案應該是\(Pr(\theta|D)\)最大的那個假設,\(Pr(October|D)=7\%\),是以生日是十月份的機率是7%。是以我們可以得到下面的公式,一般也叫做天真貝葉斯分類器:
