Python實戰案例，機器學習算法，實作垃圾郵件識别

2021-07-31 10:02:00

前言

利用簡單的機器學習算法實作垃圾郵件識别。

讓我們愉快地開始吧~

開發工具

Python版本：3.6.4

相關子產品：

scikit-learn子產品；

jieba子產品；

numpy子產品；

以及一些Python自帶的子產品。

環境搭建

安裝Python并添加到環境變量，pip安裝需要的相關子產品即可。

逐漸實作

（1）劃分資料集

網上用于垃圾郵件識别的資料集大多是英文郵件，是以為了表示誠意，我花了點時間找了一份中文郵件的資料集。資料集劃分如下：

訓練資料集：

7063封正常郵件(data/normal檔案夾下)；

7775封垃圾郵件(data/spam檔案夾下)。

測試資料集：

共392封郵件(data/test檔案夾下)。

（2）建立詞典

資料集裡的郵件内容一般是這樣的：

首先，我們利用正規表達式過濾掉非中文字元，然後再用jieba分詞庫對語句進行分詞，并清除一些停用詞，最後再利用上述結果建立詞典，詞典格式為：

{"詞1": 詞1詞頻, "詞2": 詞2詞頻...}

這些内容的具體實作均在"utils.py"檔案中展現，在主程式中(train.py)調用即可：

最終結果儲存在"results.pkl"檔案内。

大功告成了麼？當然沒有！！！

現在的詞典裡有52113個詞，顯然太多了，有些詞隻出現了一兩次，後續特征提取的時候一直空占着一個次元顯然是不明智的做法。是以，我們隻保留詞頻最高的4000個詞作為最終建立的詞典：

最終結果儲存在"wordsDict.pkl"檔案内。

（3）特征提取

詞典準備好之後，我們就可以把每封信的内容轉換為詞向量了，顯然其次元為4000，每一維代表一個高頻詞在該封信中出現的頻率，最後，我們将這些詞向量合并為一個大的特征向量矩陣，其大小為：

(7063+7775)×4000

即前7063行為正常郵件的特征向量，其餘為垃圾郵件的特征向量。

上述内容的具體實作仍然在"utils.py"檔案中展現，在主程式中調用如下：

最終結果儲存在"fvs_%d_%d.npy"檔案内，其中第一個格式符代表正常郵件的數量，第二個格式符代表垃圾郵件的數量。

（4）訓練分類器

我們使用scikit-learn機器學習庫來訓練分類器，模型選擇樸素貝葉斯分類器和SVM(支援向量機)：

（5）性能測試

利用測試資料集對模型進行測試：

結果如下：

可以發現兩個模型的性能是差不多的(SVM略勝于樸素貝葉斯)，但SVM更傾向于向垃圾郵件的判定。

文章到這裡就結束了，感謝你的觀看，Python小案例系列暫停更新，下個篇章将分享Python小工具系列

Python實戰案例，機器學習算法，實作垃圾郵件識别

前言

開發工具

環境搭建

逐漸實作

繼續閱讀

HBuilder開發App Step1——環境搭建，HelloMUI 以及真機調試

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入