天天看點

Weka資料挖掘——分類

定義: 分類就是得到一個函數或分類模型(即分類器),通過分類器将未知類别的資料對象映射到某個給定的類别。 1. 資料分類可以分為兩步

第一步建立模型,通過分析由屬性描述的資料集,來建立反映其特性的模型。該步驟也稱為是有監督的學習,基于訓練集而到處模型,訓練集合是已知類别标簽的資料對象。 第二步使用模型對資料對象inxing分類。首先評估對象分類的準确度或者其他名額,如果可以接受,才使用它來對未知類别标簽的對象進行分類。

2. 預測的目的

預測的目的主要是從曆史資料記錄中自動推導出對給定資料的推廣描述,進而能夠對實作未知類别的資料進行預測。分類和回歸是兩類主要的預測問題,分類是預測離散的值,回歸是預測連續值。

3.分類器的使用和輸出

Weka資料挖掘——分類

3.1  測試選項

  • 使用訓練集
  • 提供測試集
  • 交叉驗證
  • 按照比例分割

3.2 輸出結果

運作資訊:
=== Run information ===
//學習方案以及選項
Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2  
//關系名稱
Relation:    iris
//執行個體數目
Instances:    150
//屬性數目
Attributes:   5
              sepallength
              sepalwidth
              petallength
              petalwidth
              class
//測試模式
Test mode:    evaluate on training data

///分類器模型 (完整的訓練集合)

=== Classifier model (full training set) ===

J48 pruned tree
------------------

petalwidth <= 0.6: Iris-setosa (50.0)
petalwidth > 0.6
|   petalwidth <= 1.7
|   |   petallength <= 4.9: Iris-versicolor (48.0/1.0)
|   |   petallength > 4.9
|   |   |   petalwidth <= 1.5: Iris-virginica (3.0)
|   |   |   petalwidth > 1.5: Iris-versicolor (3.0/1.0)
|   petalwidth > 1.7: Iris-virginica (46.0/1.0)

Number of Leaves  :     5

Size of the tree :     9


Time taken to build model: 0.05 seconds

=== Evaluation on training set ===

Time taken to test model on training data: 0.01 seconds
總結
=== Summary ===
//正确分類的執行個體
Correctly Classified Instances         147               98      %
//錯誤分類的執行個體
Incorrectly Classified Instances         3                2      %
//Kappa統計: 用于評判分類器的分類結果和随機分類的差異度。K=1表明和分類器和随機分類完全不同;K=0表明二者之間相同;K=-1表明分類器比随機分類效果還差。   值 越接近1 越好。

Kappa statistic                          0.97  
//平均絕對誤差【0,1】
Mean absolute error                      0.0233
//均方根誤差[0,1]
Root mean squared error                  0.108 
//相對絕對誤差
Relative absolute error                  5.2482 %
//相對均方根誤差
Root relative squared error             22.9089 %
//案例的覆寫程度  百分數越大越好
Coverage of cases (0.95 level)          98.6667 %
//平均相對區域的大小
Mean rel. region size (0.95 level)      34      %
//執行個體總數
Total Number of Instances              150     
//按照類别的詳細準确性
=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     Iris-setosa
                 0.980    0.020    0.961      0.980    0.970      0.955    0.990     0.969     Iris-versicolor
                 0.960    0.010    0.980      0.960    0.970      0.955    0.990     0.970     Iris-virginica
Weighted Avg.    0.980    0.010    0.980      0.980    0.980      0.970    0.993     0.980     

混淆矩陣
=== Confusion Matrix ===

  a  b  c   <-- classified as
 50  0  0 |  a = Iris-setosa
  0 49  1 |  b = Iris-versicolor
  0  2 48 |  c = Iris-virginica
           

4. 分類算法介紹 下面介紹一下常用分類算法,貝葉斯和神經網絡分類算法,我們放在後面在專題分析。 4.1 線性回歸         線性回歸是利用數理統計中的回歸分析,來确定多個變量之間互相依賴的定量關系的一種統計分析方法。線性回歸的主要目标是用于預測。線性回歸使用觀測資料集y值和x值來拟合一個預測模型,建構這樣一個模型後,如果給出一個新的x值,但沒有給出相應的y值,這時就可以用預測模型預測y值。

4.2決策樹 決策樹是一種預測模型,它包括決策結點、分支和葉結點三個部分。其中,決策結點代表一個測試,通常代表分類樣本的某個屬性,在該屬性不同測試結果就代表一個分支,分支表示某個決策結點的不同取值。每個葉結點存放某個類别标簽,表示一種可能的分類結果。

4.3基于規則的分類器 基于規則的分類器是使用一組判斷規則來對記錄進行分類的技術。模型的規則使用析取範式。

4.4 基于執行個體的算法 基于決策樹分類和基于規則的分類架構包括兩個步驟:第一步是歸納步,由訓練資料建構分類模型;第二步是演繹步,将模型應用于測試樣本。 前面介紹的分類都是先對訓練資料進行學習,得到分類模型,然後對未知資料進行分類,這種分類方法稱為積極學習器。與之相反的政策是推遲對訓練資料的模組化,知道需要對未知樣本進行分類時才進行模組化,采用這種政策的分類器稱為消極學習器。最典型的代表是最近鄰方法。 KNN(Nearest Neighbor)途徑是找出與測試樣本相對接近的所有訓練樣本,這些訓練樣本稱為NN,然後使用最近鄰的類别标簽來确定測試樣本的類别屬性。

4.5 支援向量機 支援向量機(SVM)是一種監督式學習的分類器。廣泛應用于統計分類和回歸分析。SVM的特點是能夠同時最小化經驗誤差與最大化幾何邊緣。 支援向量機有堅實的統計學理論基礎,并且在時間上有諸多成功的案例。SVM可以很好的用于高維資料,避免維數災難。她有一個獨特的特點,就是使用訓練執行個體的一個子集來表示決策邊界,該子集稱為支援向量。支援向量機的使用原理就是要建構找到最大邊緣超平面,所定義的線性分類器稱為最大邊緣分類器。

轉載于:https://www.cnblogs.com/mrzhang123/p/5365814.html