天天看點

【科普入門】機率與分布密度 貝葉斯理論入門 資料挖掘基礎入門

機率Probability,先驗機率Prior,後驗機率Posterior

  • 機率是一個衡量不确定性的工具。

一個例子:我們來估測某一個人的生日是十月份的機率,在沒有任何資料樣本的情況下,我們可以估計這個機率是\(Pr(October) = \frac{1}{12}\approx8.3%\).

現在假設我們有了幾萬個樣本,通過統計這幾萬個樣本的生日月份,繪制出資料分布圖:

然後通過計算,根據這個資料樣本,發現總共有7%的人的生日是十月份的,這就與沒有資料的8.3%的估計不同了。\(Pr(October|D)=7\%\)。

  • 這裡的先驗機率Prior,就是沒有資料樣本時候的估計機率,就是8.3%;
  • 後驗機率Posterior,就是有了資料樣本的估計機率7%。

機率分布

  • 機率分布就是probability distribution
  • 如果這個随機變量X是離散的,就是像上面的例子一樣,一月二月三月這樣離散的,那麼就叫做機率分布probability distribution
  • 如果這個随機變量X是一個連續變量,那麼就叫做機率密度分布probability density function

累積分布函數CDF

  • Cumulative distribution function累積分布函數
  • 按照上面生日的例子來說,累積分布函數就是前面機率的累加,\(Pr(X\leq October)\),就是這個人的出生的月份在1月到10月之間的機率,就是把機率分布累加起來了。

多元随機變量Multivariate Random Variable

  • 對于多元随機變量,機率分布就叫做聯合機率分布joint distribution。如果多元随機變量是連續的,那麼就是聯合機率密度分布Joint density distribution.

獨立independent

對于多元随機變量而言,随機變量之間是要考慮是否獨立。兩個變量之間沒有關系,就是獨立。

  • If there is no relationship between two random variables, they are called independent.
  • 條件獨立conditionally independent就是給定一個條件Z,X和Y才是獨立的。

這裡注意幾個概念:

  • Correlation和relationship不一樣,relationship一般就是指是否獨立independence。
  • Correlation是指兩個變量之間的相關性,與獨立沒有必然聯系。
  • 因果性causaation,一般也是指relationship和independence。
  • Correlation可能存在,但是因果性不存在;correlation可能不存在,但是因果性存在,兩者之間不存在必然關系。但是一般來說因果性存在,那麼correlation應該是存在。

模型與樣本

從資料挖掘的角度來說,我們并不是用線性回歸、神經網絡這些模型去拟合樣本。上圖中的MODEL不是指線性歸回這些的模型,而是一種更加本質的東西,是萬物運作的機理。我們這些樣本就是從這萬物機理中獲得到的觀測資料,我們無法直接獲得到這個本質的機理,是以隻能通過觀測擷取樣本,然後用樣本訓練模型去拟合這個本質的機理。

每一個本質都看作一個機率密度,每一個樣本其實可以看做從本質中的采樣。樣本通過機率從本質中進行采樣,然後通過樣本的資料描述Statistical inference來對本質進行描述。而這個Statistical inference就是我們使用的線性回歸,貝葉斯理論,神經網絡這些模型。

貝葉斯理論Bayes theorem

考慮上面的例子,想要判斷一個人的生日是那個月份。我們提出了一個假設,假設這個人的生日是十月份的,如何驗證這個假設呢?

  • 通常我們使用貝葉斯理論Bayes theorem去驗證一個假設,再給出一個資料庫的情況下。
  • 假設假設這個人的生日是十月份的用\(\theta\)來表示,
  • 是以之前提到的先驗機率Prior:\(Pr(\theta)=\frac{1}{12}\approx8.3%\)
  • 後驗機率Posterior:\(Pr(\theta|D)=7\%\),就是給出了資料庫的機率。
  • 似然Likelihood:\(Pr(D|\theta)\),就是後驗機率的反過來的機率。
  • 貝葉斯理論就是将上面三個機率結合起來:\(Pr(\theta|D)=\frac{Pr(D|\theta)*Pr(\theta)}{Pr(D)}\)

按照上面的例子,這個人的生日的月份,我們給出的答案應該是\(Pr(\theta|D)\)最大的那個假設,\(Pr(October|D)=7\%\),是以生日是十月份的機率是7%。是以我們可以得到下面的公式,一般也叫做天真貝葉斯分類器:

【科普入門】機率與分布密度 貝葉斯理論入門 資料挖掘基礎入門