部落格班級
AHPU機器學習
作業要求
作業目标
樸素貝葉斯算法及應用
學号
3180701131 莫申勇
一、實驗目的
1.了解樸素貝葉斯算法原理,掌握樸素貝葉斯算法架構;
2.掌握常見的高斯模型,多項式模型和伯努利模型;
3.能根據不同的資料類型,選擇不同的機率模型實作樸素貝葉斯算法;
4.針對特定應用場景及資料,能應用樸素貝葉斯解決實際問題。
二、實驗内容
1實作高斯樸素貝葉斯算法。
2.熟悉sklearn庫中的樸素貝葉斯算法;
3.針對iris資料集,應用sklearn的樸素貝葉斯算法進行類别預測。
4.針對iris資料集,利用自編樸素貝葉斯算法進行類别預測。
三、實驗報告要求
1.對照實驗内容,撰寫實驗過程、算法及測試結果;
2.代碼規範化:命名規則、注釋;
3.分析核心算法的複雜度;
4.查閱文獻,讨論各種樸素貝葉斯算法的應用場景;
5.讨論樸素貝葉斯算法的優缺點。
四、實驗過程及結果
高斯模型
多項式模型
伯努利模型
五、實驗小結
需要一個比較容易解釋,而且不同次元之間相關性較小的模型的時候。
可以高效處理高維資料,雖然結果可能不盡如人意。
優點:
樸素貝葉斯模型發源于古典數學理論,有着堅實的數學基礎,以及穩定的分類效率;
對大數量訓練和查詢時具有較高的速度。即使使用超大規模的訓練集,針對每個項目通常也隻會有相對較少的特征數,并且對項目的訓練和分類也僅僅是特征機率的數學運算而已;
對小規模的資料表現很好,能個處理多分類任務,适合增量式訓練(即可以實時的對新增的樣本進行訓練);
對缺失資料不太敏感,算法也比較簡單,常用于文本分類;
樸素貝葉斯對結果解釋容易了解。
缺點:
需要計算先驗機率;
分類決策存在錯誤率;
對輸入資料的表達形式很敏感;
由于使用了樣本屬性獨立性的假設,是以如果樣本屬性有關聯時其效果不好。
實驗三
任務内容
計劃完成需要的時間(min)
實際完成需要的時間(min)
Planning
計劃
120
8
Development
開發
100
150
Analysis
需求分析(包括學習新技術)
10
Design Spec
生成設計文檔
30
40
Design Review
設計複審
5
Coding Standard
代碼規範
3
2
Design
具體設計
12
Coding
具體編碼
36
21
Code Review
代碼複審
7
Test
測試(自我測試,修改代碼,送出修改)
15
Reporting
報告
9
6
Test Report
測試報告
Size Measurement
計算工作量
1
Postmortem & Process Improvement Plan
事後總結,并提出過程改進計劃