天天看點

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

目錄

  • 定義
  • 分類與聚類
  • 分類過程
  • 方法

定義

分類算法的本意就是對我們的資料分進行分類。把它們分到已知的每一個類别。就像一個籃子裡面有很多橙子和蘋果,機器會通過我們訓練出來的模型,對籃子裡的水果進行分類。比如:紅色 = 蘋果,橙色 = 橙子。若要讓機器直到這種規則,我們就需要一定量的帶标簽的“紅/橙”标簽的資料。然後讓模型學習,噢,原來是這種分類規則。

是以分類算法往往需要“帶标簽”的資料。它是一個監督學習的過程。目标資料都有哪些特征以及這些特征對應什麼标簽都必須是已知的。然後模型會周遊每一筆資料,最終得到我們我們所認為的規則。是以分類算法往往擁有更精确的計算結果。隻是資料的局限性更高,若無法滿足的話,我們則需要考慮聚類分析。

分類與聚類

這裡的對比其實是複制我的另外一篇文章。(【聚類算法】什麼是聚類)

對比項 分類 聚類
基礎 将資料分類為衆多已定義的确定類之一 此函數将資料映射到多個叢集中的一個叢集,其中資料項的排列依賴于它們之間的相似性。
類型 監督學習 非監督學習
訓練集 需要 不需要

分類過程

  • 資料準備 - 準備你要分類的資料。這些資料必須要帶标簽的
  • 資料分類 - 把資料劃分成訓練集和測試集。這裡有很多種劃分規則。(後續我就訓練集與測試集的劃分分享一篇文章,敬請期待)
  • 訓練模型 - 把訓練集資料傳進模型當中,讓模型直到我們需要的規則。
  • 測試模型 - 使用測試集測試模型的效果,并調整模型
  • 輸出模型 - 把訓練好的模型打包并輸出

方法

分類的方法有很多。但很多都是從線性回歸為基礎拓展出來的,比如邏輯回歸。這裡稍微預告一下我會分享的分類算法:

  • 邏輯回歸
  • 支援向量機(SVM)
  • KNN
  • 決策樹
  • 随機森林
  • Xgboots
  • 貝葉斯
  • 神經網絡(這個有難度,希望能分享)

    點我閱讀更多算法分享

繼續閱讀