内容
1. 分析weka自帶的測試資料集;
2. 利用weka實作對資料庫中資料的挖掘;
3.利用weka中的預處理算法對資料進行預處理,包括:添加屬性,删除屬性/執行個體,将資料離散化。
步驟及結果
分析weka自帶的測試資料集;
首先安裝weka
安裝完後解壓weka.jar
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 檢視data檔案夾,裡面是weka自帶的資料集
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 利用weka實作對資料庫中資料的挖掘
在對資料庫中的資料進行挖掘時,我們需要将weka與mysql連接配接起來
第一,配置環境變量
%WEKA_HOME%\lib\mysql-connector-java-5.1.47.jar;
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 第二,啟動資料庫,建立名為weka的資料庫,并建立如下表
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 第三,修改如下配置檔案
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 修改如下兩行
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 設定完成後打開weka,進入探索者頁面
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 單擊如下按鈕
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 出現資料庫連接配接成功提示
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 查詢weka1表中的資料
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 結果如下
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 利用weka中的預處理算法對資料進行預處理,包括:添加屬性,删除屬性/執行個體,将資料離散化。
第一,加載資料
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 加載資料後出現如下頁面
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 第二,删除屬性
單擊choose
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 适合删除屬性的的過濾器是 Remove,我們在無監督\attribute 下找到 Remove 條目
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 再點選apply
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 屬性成功删除
第三,添加屬性
仍然是單擊 Choose 按鈕,依次weka-filter-無監督-attribute-AddUserFileds過濾器
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 建立屬性
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 Apply之後生成新的屬性
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 新增過濾器AddValues
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 再點開Edit檢視
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 第四,删除執行個體
<1>選擇 choose-weka-filter-unsupervised-instance-RemoveFolds, 過 濾 器将資料集分割為給定的交叉驗證折數,并指定輸出第幾折。點選 Choose 旁邊的文本框,彈出如下對話框
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 點選apply隻剩下兩條資料
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 <2>choose-weka-filter-unsupervised-instance-RemovePercentage,
過濾器删除資料集中給定百分比的執行個體,點選 Choose 旁邊的文本框,
彈出如下對話框,
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 apply之後隻剩下1條資料
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 <3>選擇 choose-weka-filter-unsupervised-instance-RemoveRange,
過濾器删除資料集中給定範圍的執行個體,點選 Choose 旁邊的文本框,
彈出如下:
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 點選apply之後
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 第五,使用weka将資料離散化
在 data 目錄中找到玻璃資料集 glass.arff 檔案
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 RI屬性直方圖
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 等寬離散化:依次打開 choose-weka-filters-unsupervised-attribute-Discretize.保持預設參數不變,點
擊 Apply,出現如下圖:
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 等頻離散化:設定 Discretize 中的 值為 true。得到等頻離散化後的 RI 屬性,如下圖:
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 檢視Ba,Fe
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 第六,有監督離散化
首先打開 data 資料集中的鸢尾花資料 集,即 iris.arff 檔案,資料集中各屬性如下
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果 Weka 中打開 iris 資料集,顯示如下圖
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果