ML之NB：樸素貝葉斯Naive Bayesian算法的簡介、應用、經典案例之詳細攻略

樸素貝葉斯Naive Bayesian算法的簡介

樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。樸素貝葉斯分類器基于一個簡單的假定：給定目标值時屬性之間互相條件獨立。

通過以上定理和“樸素”的假定，我們知道：

P(Category | Document) = P(Document | Category ) * P(Category) / P(Document)

樸素貝葉斯的基本方法：在統計資料的基礎上，依據條件機率公式，計算目前特征的樣本屬于某個分類的機率，選擇最大的機率分類。對于給出的待分類項，求解在此項出現的條件下各個類别出現的機率，哪個最大，就認為此待分類項屬于哪個類别。

1、樸素貝葉斯計算流程表述

（1）x = {a1, a2,..., am}為待分類項，每個ai為x的一個特征屬性

（2）有類别集合C = {y1, y2, ..., yn}

（3）計算P(y1|x), P(y2|x), ..., P(yn|x)

（4）如果P(yk|x) = max{P(y1|x)

2、樸素貝葉斯的優缺點

2.1、優點

樸素貝葉斯算法假設了資料集屬性之間是互相獨立的，是以算法的邏輯性十分簡單，并且算法較為穩定，當資料呈現不同的特點時，樸素貝葉斯的分類性能不會有太大的差異。換句話說就是樸素貝葉斯算法的健壯性比較好，對于不同類型的資料集不會呈現出太大的差異性。當資料集屬性之間的關系相對比較獨立時，樸素貝葉斯分類算法會有較好的效果。

2.2、缺點

屬性獨立性的條件同時也是樸素貝葉斯分類器的不足之處。資料集屬性的獨立性在很多情況下是很難滿足的，因為資料集的屬性之間往往都存在着互相關聯，如果在分類過程中出現這種問題，會導緻分類的效果大大降低。

3、分類模型之DT與NB的比較

最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBM）。和決策樹模型相比，樸素貝葉斯分類器(Naive Bayes Classifier 或 NBC)發源于古典數學理論，有着堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的參數很少，對缺失資料不太敏感，算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此，這是因為NBC模型假設屬性之間互相獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正确分類帶來了一定影響。

樸素貝葉斯Naive Bayesian算法的應用

1、文本分類

直覺的文本分類算法，也是最簡單的貝葉斯分類器，具有很好的可解釋性，樸素貝葉斯算法特點是假設所有特征的出現互相獨立互不影響，每一特征同等重要。但事實上這個假設在現實世界中并不成立：首先，相鄰的兩個詞之間的必然聯系，不能獨立；其次，對一篇文章來說，其中的某一些代表詞就确定它的主題，不需要通讀整篇文章、檢視所有詞。是以需要采用合适的方法進行特征選擇，這樣樸素貝葉斯分類器才能達到更高的分類效率。

樸素貝葉斯Naive Bayesian算法的經典案例

1、基礎案例

ML之NB：(NLP)基于sklearn庫利用不同語種資料集訓練NB(樸素貝葉斯)算法，對新語種進行語種檢測

https://yunyaniu.blog.csdn.net/article/details/87652618

ML之NB&LoR：利用NB(樸素貝葉斯)、LoR(邏輯斯蒂回歸)算法(+CountVectorizer)對Rotten Tomatoes影評資料集進行文本情感分析—五分類預測

https://yunyaniu.blog.csdn.net/article/details/87696356

ML之NB&LoR：利用NB(樸素貝葉斯)、LoR(邏輯斯蒂回歸)算法(+TfidfVectorizer)對Rotten Tomatoes影評資料集進行文本情感分析—五分類預測

https://yunyaniu.blog.csdn.net/article/details/87707184

ML之NB：基于NB樸素貝葉斯算法訓練20類新聞文本資料集進行多分類預測

https://yunyaniu.blog.csdn.net/article/details/87886811

ML之NB：樸素貝葉斯Naive Bayesian算法的簡介、應用、經典案例之詳細攻略

樸素貝葉斯Naive Bayesian算法的簡介

樸素貝葉斯Naive Bayesian算法的應用

樸素貝葉斯Naive Bayesian算法的經典案例

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希