樸素貝葉斯基于貝葉斯定理,它假設輸入随機變量的特征值是條件獨立的,故稱之為“樸素”。簡單介紹貝葉斯定理:

乍看起來似乎是要求一個機率,還要先得到額外三個機率,有用麼?其實這個簡單的公式非常貼切人類推理的邏輯,即通過可以觀測的資料,推測不可觀測的資料。舉個例子,也許你在辦公室内不知道外面天氣是晴天雨天,但是你觀測到有同僚帶了雨傘,那麼可以推斷外面八成在下雨。
若X 是要輸入的随機變量,則Y 是要輸出的目标類别。對X 進行分類,即使求的使P(Y|X) 最大的Y值。若X 為n 維特征變量 X = {A1, A2, …..An} ,若輸出類别集合為Y = {C1, C2, …. Cm} 。
X 所屬最有可能類别 y = argmax P(Y|X), 進行如下推導:
有公式可知,欲求分類結果,須知如下變量:
各個類别的條件機率,
輸入随機變量的特質值的條件機率
l 樸素貝葉斯分類實作簡單,預測的效率較高
l 樸素貝葉斯成立的假設是個特征向量各個屬性條件獨立,模組化的時候需要特别注意
示例代碼: