目錄
- 定義
- 分類與聚類
- 分類過程
- 方法
定義
分類算法的本意就是對我們的資料分進行分類。把它們分到已知的每一個類别。就像一個籃子裡面有很多橙子和蘋果,機器會通過我們訓練出來的模型,對籃子裡的水果進行分類。比如:紅色 = 蘋果,橙色 = 橙子。若要讓機器直到這種規則,我們就需要一定量的帶标簽的“紅/橙”标簽的資料。然後讓模型學習,噢,原來是這種分類規則。
是以分類算法往往需要“帶标簽”的資料。它是一個監督學習的過程。目标資料都有哪些特征以及這些特征對應什麼标簽都必須是已知的。然後模型會周遊每一筆資料,最終得到我們我們所認為的規則。是以分類算法往往擁有更精确的計算結果。隻是資料的局限性更高,若無法滿足的話,我們則需要考慮聚類分析。
分類與聚類
這裡的對比其實是複制我的另外一篇文章。(【聚類算法】什麼是聚類)
對比項 | 分類 | 聚類 |
---|---|---|
基礎 | 将資料分類為衆多已定義的确定類之一 | 此函數将資料映射到多個叢集中的一個叢集,其中資料項的排列依賴于它們之間的相似性。 |
類型 | 監督學習 | 非監督學習 |
訓練集 | 需要 | 不需要 |
分類過程
- 資料準備 - 準備你要分類的資料。這些資料必須要帶标簽的
- 資料分類 - 把資料劃分成訓練集和測試集。這裡有很多種劃分規則。(後續我就訓練集與測試集的劃分分享一篇文章,敬請期待)
- 訓練模型 - 把訓練集資料傳進模型當中,讓模型直到我們需要的規則。
- 測試模型 - 使用測試集測試模型的效果,并調整模型
- 輸出模型 - 把訓練好的模型打包并輸出
方法
分類的方法有很多。但很多都是從線性回歸為基礎拓展出來的,比如邏輯回歸。這裡稍微預告一下我會分享的分類算法:
- 邏輯回歸
- 支援向量機(SVM)
- KNN
- 決策樹
- 随機森林
- Xgboots
- 貝葉斯
-
神經網絡(這個有難度,希望能分享)
點我閱讀更多算法分享