4.1基本概念
1、資料挖掘中的分類的目的
它是為了得到一個分類函數或分類模型(也稱作分類器),該模型能把資料庫中的資料項映射到給定類别中的某一個。
比如:可以将股票分為易漲和易跌股票兩類。這樣就可以選擇屬于易漲的哪類股票買入。
2、分類描述
①輸入資料(訓練集),它是有一條條的資料庫記錄組成的。
②每條記錄包含若幹個屬性,組成一個特征向量。
③訓練集的每條記錄還有一個特定的類标簽與之對應。
④該類标簽是系統的輸入,通常是以往的一些經驗資料
⑤一個具體樣本的形式可為樣本向量:(v1,v2,...vn;c),這裡的vi表示字段值,c表示類别。
3、分類的目的:
①分析輸入資料,通過在訓練集中的資料表現出來的特性,為每一個類找到一種準确的描述或模型。
②由此生成的類描述用來對未來測試資料進行分類。
③盡管這些未來的測試資料的類标簽是未知的,仍可以由此預測這些新資料所屬的類。注意是預測不是肯定。
4、分類定義:
對現有的資料進行學習,得到一個目标函數或規則,把每個屬性集x映射到一個預先定義的類标号y上。
目标函數或規則也稱為分類模型,它有兩個主要内容。
①一個是描述性模組化,即作為解釋性工具,用于差別不同類中的對象。②另一個是預測性模組化,即用于預測未知記錄的類标号。
5、分類的原理
①需要一個訓練集,它有類标号已知的記錄組成。
②使用訓練集建立分類模型
③分類模型運用于檢驗集,檢驗集由類标号未知的記錄組成。
![]()
資料挖掘學習------------------4-分類方法-1-基本概念4.1基本概念
6、訓練模型分類
①分類規則形式
②決策樹形式或數學公式形式。
例如:給定一個顧客信用資訊資料庫,通過學習所獲的分類規則可用于識别顧客是否具有良好的信用等級或一般的信用低級。
7、構造模型的過程
兩個階段:①訓練、②測試
在構造模型之前,要求将資料集随機地分為訓練資料和測試資料。
(1)在訓練階段
①使用訓練資料集,通過分析由屬性描述的資料庫元組來構造模型,假設每個元組屬于一個預定義的類,由一個稱作類标号屬性的屬性來确定。②訓練資料集中的單個元組也稱作訓練樣本,一個具體樣本的形式可為:(u1,u2,....,un;c),其中ui表示屬性值,c表示類别。③由于提供了每個訓練樣本的類标号,該階段也稱有指導的學習。④模型以分類規則、判定樹或數學公式的形式提供。(2)在測試階段①使用測試資料集來評估模型的分類準确率。②如果認為模型的準确率可以接受,就可以用該模型對其他資料進行分類。③一般測試階段的代價遠遠低于訓練階段。
8、預處理
在分類之前,對資料進行預處理:
(1)清理資料。目的:消除或減少資料噪聲。
(2)相關性分析。目的:删除這些不相關或備援的屬性。
(3)資料變換。目的:資料可概化到較高的概念。比如連續性數值變為離散型、按比例縮放,落入較小的區間,比如【0,1】區間等。
9、常用的分類方法
常用的共7種:①K-緊鄰(KNN)②貝葉斯分類③神經網絡④邏輯斯谛(Logistic)⑤判别分析⑥支援向量機(SVM)⑦決策樹後面章節一一介紹。