天天看點

分類與聚類分類和聚類的定義兩者差別

分類和聚類的定義

分類是資料挖掘中最重要的任務之一---根據目标屬性為目标配置設定預定義的類标簽的過程。

聚類是在無監督學習中應用最廣的方法之一---試圖将資料集中的所有資料劃分為若幹個子集。(一般為不相交)

兩者差別

分類和聚類之間有相似之處,看起來相似,但又有所不同。

分類 聚類
有監督學習方法 無監督學習方法
向模型提供特定标簽,對新目标結果進行分類,并且模型需要适當的測試和訓練來進行标簽的驗證 聚類的分組是在相似性的基礎上進行的
需要訓練資料(并且帶标簽) 不需要訓練資料(資料不帶标簽)
使用算法根據訓練資料集的觀察對新的資料進行分類 使用統計學概念,其中資料集被劃分為具有相同特征的子集(通常為不相交)
目标不同,其目标為從一組預定義的類中找出一個新對象屬于哪個類 其目标為對一組資料進行分組,并且查找他們之間是否存在相關關系
基本功能是預測 基本功能是降維
待處理資料為單一資料 待處理資料為同時處理所有資料
典型分類算法:邏輯回歸法、K-最近鄰法、樸素貝葉斯方法、神經網絡方法、判别分析法 典型聚類算法:分區方法、層次聚類、模糊聚類、基于密度的聚類、基于模型的聚類

繼續閱讀