概述

樸素貝葉斯法是可以用于分類（二分類，多分類）任務。基于三大公式（條件公式，貝葉斯公式，全機率公式），算法首先學習訓練資料集的統計特征，然後該統計特性輸出測試樣本的分類。

背景知識

條件機率公式及了解

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析
P(AB)為聯合機率分布，即A,B同時發生的事件，對應途中的相交部分。P(A|B)表示，在B發生的條件下，A發生的機率，說白了，就是A，B相交的區域占B的多少？

2.全機率公式

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

其實全機率公式是一個分塊的思想。也就是“知因求果，”舉個例子：

A=[富，帥]，B=好男人。那麼一個男生他是好男人的機率P(B)是多少呢？

本例中，決定一個男生是否為好男人的因素有兩個：富，帥。P(B|A=富)表示：在男生富的條件下，他是好男人的機率。P(B|A=帥)表示：在帥的條件下，他是好男人的機率。那麼，一個男生是好男人的機率就可以拆分為兩部分：因為“富”，是以是好男人 +因為“帥”，是以是好男人，兩者的機率之和。

貝葉斯公式、

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

貝葉斯公式與全機率公式正好相反。全機率公式是“知因求果”，貝葉斯公式是“知果求因”，運用上面的例子，就是說我現在已經知道男生是好男人的，但是他很有錢的機率是多少？這也可以根據條件機率公式跟全機率公式推導出來：

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

樸素貝葉斯算法

掌握樸素貝葉斯算法需要掌握以下幾點：

樸素貝葉斯的強假設
樸素貝葉斯的思想和原理
參數估計方法
後驗機率最大化的含義

樸素貝葉斯的強假設

樸素貝葉斯算法的理論基礎是貝葉斯公式，他有一個強假設，即對條件機率分布坐了獨立性的假設。

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

其中，X(i)可以了解為影響結果的每一個因素，條件機率分布獨立意思就是每個因素互相獨立，例如說富不會導緻你帥。

樸素貝葉斯的思想和原理

樸素貝葉斯的核心就是貝葉斯公式：

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

算法的學習過程就是從資料中統計出兩個機率分布：

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

有了這兩個分布，就可以通過貝葉斯公式算出

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

也就是在X是x因素的情況下，Y是ck這個label的機率是多少。最後通過最大化4.7式來确定測試樣本點的分類

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

參數估計方法:

極大似然法

其實就是算占比，例如P（X=1|Y=1）,先數Y=1的樣本有多少個，在從這些樣本中看看X=1的樣本點占比是多少。這是最簡單的情況，實際中會給出P(X|Y)的機率模型，如高斯等
貝葉斯估計

在極大似然法的基礎上加上一個常數，防止出現機率為0的情況。

後驗機率最大化的含義

為什麼要最大化4.7式子？對應的是期望經驗風險最小化，具體的推導看書啦，從直覺上也很好了解，機率越大，可能性越大嘛。

代碼分析

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

高斯樸素貝葉斯模型，這裡算法是的學習過程就是通過訓練樣本計算出P(xi|yk)。

計算方差，标準差，高斯模型機率的函數：

def mean(X):
        return sum(X) / float(len(X))

    # 标準差（方差）
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))

    # 機率密度函數
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent

處理資料集：

def summarize(self, train_data):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        return summaries

注意這裡求的是每一個X特征的期望和标準差，也就是一個樣本對應一個期望，一個标準差。

模型訓練：

# 分類别求出數學期望和标準差
    def fit(self, X, y):
        labels = list(set(y))
        data = {label: [] for label in labels}
        for f, label in zip(X, y):
            data[label].append(f)  # 對應的label 加入對象的特征量
            self.model = {  #整理出期望與方差
                 label: self.summarize(value)
                 for label, value in data.items()
                 }
        print(self.model)
        return 'gaussianNB train done!'

這裡就是算出P(xi|yk)的過程，算完了模型也就是訓練好了。

計算機率

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

def calculate_probabilities(self, input_data):
        # summaries:{0.0: [(5.0, 0.37),(3.42, 0.40)], 1.0: [(5.8, 0.449),(2.7, 0.27)]}
        # input_data:[1.1, 2.2]
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1

            for i in range(len(value)):
                mean, stdev = value[i]  #取每個向量，每個向量都有對應的期望和方差
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)

        return probabilities

預測分類

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析
就是一個找最大值得過程。

# 類别
    def predict(self, X_test):
        # {0.0: 2.9680340789325763e-27, 1.0: 3.5749783019849535e-26}
        label = sorted(
            self.calculate_probabilities(X_test).items(),  #都算，取最大值
            key=lambda x: x[-1])[-1][0]
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1

        return right / float(len(X_test))

一文讀懂樸素貝葉斯（從原理到實作）概述背景知識樸素貝葉斯算法參數估計方法:後驗機率最大化的含義代碼分析

概述

背景知識

樸素貝葉斯算法

樸素貝葉斯的強假設

樸素貝葉斯的思想和原理

參數估計方法:

後驗機率最大化的含義

代碼分析

繼續閱讀

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

Small tricks

libsvm for python 安裝

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

無人機--飛控科普

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入