天天看點

Weka Explorer(探索者界面) 詳解(1)預處理标簽 Preprocess分類器标簽 Classify聚類标簽 Cluster

打開Weka後在彈出的Weka GUI Chooser 中點選 Explorer,進入探索者界面。探索者界面是Weka最簡單的使用界面。所有的Weka功能都能在這個界面中通過點選滑鼠和表單填寫來使用。由于很多選項都預設了常用的預設值,使使用者以最小的代價取得結果。不過該界面也有缺點:它會把樣本資料全部讀入記憶體,是以分析的樣本資料量不能太大。

在探索者界面有6個标簽,我們一個一個說:

預處理标簽 Preprocess

預處理标簽主要提供三個功能:樣本資料的讀入,樣本過濾和樣本的預覽。 weka支援三種讀入資料的方式:arff格式、csv格式還有文本格式。arff格式的支援最好,是以建議把其他兩種格式都轉成arff格式再讀入,轉換時要注意檔案的編碼,最好是utf8。轉換語句:

java weka.core.converters.CSVLoader filename.csv > filename.arff
java weka.core.converters.TextDirectoryLoader -dir D:/temp/weka/TextDirectoryLoader/ > D:/temp/weka/data.arff
           

注意在文本轉換的時候檔案夾的名字表示類别,詳見http://blog.csdn.net/chl033/article/details/4837232。 此外Weka還支援通過URL和資料庫來讀取樣本,這裡先按下不表。 預處理标簽還有一個Filter功能來對樣本的屬性進行轉換,對樣本的執行個體進行操作。比如樣本中有一個屬性叫年齡為數值類型(1-150),可以用Discretize 過濾器進行離散,得到一個名詞型的屬性年齡段{少年,青年,中年,老年}。再比如執行個體過濾器中的NonSparseToSparse過濾器可以把樣本執行個體轉換成稀疏模式(購物籃分析中常用)。高端玩家還能自己編寫過濾器。詳見http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html 。 樣本資料的概覽以直覺的圖表展現了樣本資料的類别和數量,不多說了。

分類器标簽 Classify

Weka把大部分監督學習的算法都放在該标簽中,包括了分類算法和回歸算法。具體算法的選擇在标簽頁最上面的下拉框中。 對于這個标簽頁我們着重講講 Test options。 監督學習的算法是指在已知樣本類别的情況下生成分類器,然後用測試資料集調整分類器,提高準确度。在Test options(驗證選項)中可以選擇使用什麼樣的測試集。Use Training set 表示直接使用訓練集做測試集。Supply test set表示使用另一個檔案來做測試集。最下面還有一個Percentage Split 表示把訓練集按百分比分割,一部分成為訓練集一部分留作測試集。那麼剩下的 cross validation(交叉驗證) 是什麼意思呢? 交叉驗證帶有一個參數選擇,預設為10,俗稱十折交叉驗證。對于一個資料樣本,它先把資料随機地分割成10份。然後将1份資料集當做測試集,9份資料當做樣本集,進行學習。再選另一份資料集作測試集,其餘的資料做樣本集,依次類推,共進行10次。確定每次測試集都不同。最後将10個誤差率估計值平均而得出一個綜合誤差估計。

聚類标簽 Cluster

聚類标簽頁的設計跟分類标簽頁類似,但在驗證選項中沒有交叉驗證,取而代之的是 Class to clusters evaluation 選項。它表示根據樣本集中的某個屬性來分類,并以之為依據校驗聚類結果,在聚類時會自動忽略這個設定的屬性。

轉載于:https://www.cnblogs.com/rav009/p/5131128.html