天天看點

實驗三 樸素貝葉斯

部落格班級

AHPU機器學習

作業要求

作業目标

樸素貝葉斯算法及應用

學号

3180701131 莫申勇

一、實驗目的

1.了解樸素貝葉斯算法原理,掌握樸素貝葉斯算法架構;

2.掌握常見的高斯模型,多項式模型和伯努利模型;

3.能根據不同的資料類型,選擇不同的機率模型實作樸素貝葉斯算法;

4.針對特定應用場景及資料,能應用樸素貝葉斯解決實際問題。

二、實驗内容

1實作高斯樸素貝葉斯算法。

2.熟悉sklearn庫中的樸素貝葉斯算法;

3.針對iris資料集,應用sklearn的樸素貝葉斯算法進行類别預測。

4.針對iris資料集,利用自編樸素貝葉斯算法進行類别預測。

三、實驗報告要求

1.對照實驗内容,撰寫實驗過程、算法及測試結果;

2.代碼規範化:命名規則、注釋;

3.分析核心算法的複雜度;

4.查閱文獻,讨論各種樸素貝葉斯算法的應用場景;

5.讨論樸素貝葉斯算法的優缺點。

四、實驗過程及結果

高斯模型

多項式模型

伯努利模型

五、實驗小結

需要一個比較容易解釋,而且不同次元之間相關性較小的模型的時候。

可以高效處理高維資料,雖然結果可能不盡如人意。

優點:

樸素貝葉斯模型發源于古典數學理論,有着堅實的數學基礎,以及穩定的分類效率;

對大數量訓練和查詢時具有較高的速度。即使使用超大規模的訓練集,針對每個項目通常也隻會有相對較少的特征數,并且對項目的訓練和分類也僅僅是特征機率的數學運算而已;

對小規模的資料表現很好,能個處理多分類任務,适合增量式訓練(即可以實時的對新增的樣本進行訓練);

對缺失資料不太敏感,算法也比較簡單,常用于文本分類;

樸素貝葉斯對結果解釋容易了解。

缺點:

需要計算先驗機率;

分類決策存在錯誤率;

對輸入資料的表達形式很敏感;

由于使用了樣本屬性獨立性的假設,是以如果樣本屬性有關聯時其效果不好。

實驗三

任務内容

計劃完成需要的時間(min)

實際完成需要的時間(min)

Planning

計劃

120

8

Development

開發

100

150

Analysis

需求分析(包括學習新技術)

10

Design Spec

生成設計文檔

30

40

Design Review

設計複審

5

Coding Standard

代碼規範

3

2

Design

具體設計

12

Coding

具體編碼

36

21

Code Review

代碼複審

7

Test

測試(自我測試,修改代碼,送出修改)

15

Reporting

報告

9

6

Test Report

測試報告

Size Measurement

計算工作量

1

Postmortem & Process Improvement Plan

事後總結,并提出過程改進計劃

繼續閱讀