打開Weka後在彈出的Weka GUI Chooser 中點選 Explorer，進入探索者界面。探索者界面是Weka最簡單的使用界面。所有的Weka功能都能在這個界面中通過點選滑鼠和表單填寫來使用。由于很多選項都預設了常用的預設值，使使用者以最小的代價取得結果。不過該界面也有缺點：它會把樣本資料全部讀入記憶體，是以分析的樣本資料量不能太大。

在探索者界面有6個标簽，我們一個一個說：

預處理标簽 Preprocess

預處理标簽主要提供三個功能：樣本資料的讀入，樣本過濾和樣本的預覽。 weka支援三種讀入資料的方式：arff格式、csv格式還有文本格式。arff格式的支援最好，是以建議把其他兩種格式都轉成arff格式再讀入，轉換時要注意檔案的編碼，最好是utf8。轉換語句：

java weka.core.converters.CSVLoader filename.csv > filename.arff
java weka.core.converters.TextDirectoryLoader -dir D:/temp/weka/TextDirectoryLoader/ > D:/temp/weka/data.arff

注意在文本轉換的時候檔案夾的名字表示類别，詳見http://blog.csdn.net/chl033/article/details/4837232。此外Weka還支援通過URL和資料庫來讀取樣本，這裡先按下不表。預處理标簽還有一個Filter功能來對樣本的屬性進行轉換，對樣本的執行個體進行操作。比如樣本中有一個屬性叫年齡為數值類型（1-150），可以用Discretize 過濾器進行離散，得到一個名詞型的屬性年齡段{少年，青年，中年，老年}。再比如執行個體過濾器中的NonSparseToSparse過濾器可以把樣本執行個體轉換成稀疏模式（購物籃分析中常用）。高端玩家還能自己編寫過濾器。詳見http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html 。樣本資料的概覽以直覺的圖表展現了樣本資料的類别和數量，不多說了。

分類器标簽 Classify

Weka把大部分監督學習的算法都放在該标簽中，包括了分類算法和回歸算法。具體算法的選擇在标簽頁最上面的下拉框中。對于這個标簽頁我們着重講講 Test options。監督學習的算法是指在已知樣本類别的情況下生成分類器，然後用測試資料集調整分類器，提高準确度。在Test options（驗證選項）中可以選擇使用什麼樣的測試集。Use Training set 表示直接使用訓練集做測試集。Supply test set表示使用另一個檔案來做測試集。最下面還有一個Percentage Split 表示把訓練集按百分比分割，一部分成為訓練集一部分留作測試集。那麼剩下的 cross validation（交叉驗證）是什麼意思呢？交叉驗證帶有一個參數選擇，預設為10，俗稱十折交叉驗證。對于一個資料樣本，它先把資料随機地分割成10份。然後将1份資料集當做測試集，9份資料當做樣本集，進行學習。再選另一份資料集作測試集，其餘的資料做樣本集，依次類推，共進行10次。確定每次測試集都不同。最後将10個誤差率估計值平均而得出一個綜合誤差估計。

聚類标簽 Cluster

聚類标簽頁的設計跟分類标簽頁類似，但在驗證選項中沒有交叉驗證，取而代之的是 Class to clusters evaluation 選項。它表示根據樣本集中的某個屬性來分類，并以之為依據校驗聚類結果，在聚類時會自動忽略這個設定的屬性。

轉載于:https://www.cnblogs.com/rav009/p/5131128.html

Weka Explorer(探索者界面) 詳解（1）預處理标簽 Preprocess分類器标簽 Classify聚類标簽 Cluster

預處理标簽 Preprocess

分類器标簽 Classify

聚類标簽 Cluster

繼續閱讀

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

登入plsql 報錯 the account is locked --使用者被鎖

Effective Java 8:通用程式設計

SequoiaDB巨杉資料庫C++驅動概述

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method