天天看點

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

内容

1. 分析weka自帶的測試資料集;

2. 利用weka實作對資料庫中資料的挖掘;

3.利用weka中的預處理算法對資料進行預處理,包括:添加屬性,删除屬性/執行個體,将資料離散化。

步驟及結果

分析weka自帶的測試資料集;

首先安裝weka

安裝完後解壓weka.jar

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

檢視data檔案夾,裡面是weka自帶的資料集

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

利用weka實作對資料庫中資料的挖掘

在對資料庫中的資料進行挖掘時,我們需要将weka與mysql連接配接起來

第一,配置環境變量

%WEKA_HOME%\lib\mysql-connector-java-5.1.47.jar;

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

第二,啟動資料庫,建立名為weka的資料庫,并建立如下表

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

第三,修改如下配置檔案

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

修改如下兩行

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

設定完成後打開weka,進入探索者頁面

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

單擊如下按鈕

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

出現資料庫連接配接成功提示

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

查詢weka1表中的資料

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

結果如下

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

利用weka中的預處理算法對資料進行預處理,包括:添加屬性,删除屬性/執行個體,将資料離散化。

第一,加載資料

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

加載資料後出現如下頁面

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

第二,删除屬性

單擊choose

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

适合删除屬性的的過濾器是 Remove,我們在無監督\attribute 下找到 Remove 條目

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

再點選apply

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

屬性成功删除

第三,添加屬性

仍然是單擊 Choose 按鈕,依次weka-filter-無監督-attribute-AddUserFileds過濾器

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

建立屬性

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

Apply之後生成新的屬性

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

新增過濾器AddValues

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

再點開Edit檢視

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

第四,删除執行個體

<1>選擇 choose-weka-filter-unsupervised-instance-RemoveFolds, 過 濾 器将資料集分割為給定的交叉驗證折數,并指定輸出第幾折。點選 Choose 旁邊的文本框,彈出如下對話框

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

點選apply隻剩下兩條資料

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

<2>choose-weka-filter-unsupervised-instance-RemovePercentage,

過濾器删除資料集中給定百分比的執行個體,點選 Choose 旁邊的文本框,

彈出如下對話框,

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

apply之後隻剩下1條資料

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

<3>選擇 choose-weka-filter-unsupervised-instance-RemoveRange,

過濾器删除資料集中給定範圍的執行個體,點選 Choose 旁邊的文本框,

彈出如下:

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

點選apply之後

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

第五,使用weka将資料離散化

在 data 目錄中找到玻璃資料集 glass.arff 檔案

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

RI屬性直方圖

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

等寬離散化:依次打開 choose-weka-filters-unsupervised-attribute-Discretize.保持預設參數不變,點

擊 Apply,出現如下圖:

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

等頻離散化:設定 Discretize 中的 值為 true。得到等頻離散化後的 RI 屬性,如下圖:

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果
#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

檢視Ba,Fe

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

第六,有監督離散化

首先打開 data 資料集中的鸢尾花資料 集,即 iris.arff 檔案,資料集中各屬性如下

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果

Weka 中打開 iris 資料集,顯示如下圖

#yyds幹貨盤點#基于weka的資料庫挖掘及資料預處理内容步驟及結果