内容簡介:
畢業論文 基于 JAVA 的 WEKA 資料挖掘平台分析及二次開發
共60頁
摘 要
資料挖掘是在“資訊爆炸,知識缺乏”的背景下提出的新技術。所謂資料挖掘就是從大量的、不完整的、有噪聲的、模糊的、随機的資料中,提取隐含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。該技術在銀行業、市場業、零售業、保險業及電信業等諸多領域的資料分析中有着廣闊的應用前景。
本文首先針對資料挖掘技術作了比較全面的綜述,并深入分析聚類方法。其次,針對學術界典型的開放資料挖掘工具 WEKA,進行資料挖掘測試,主要包括預處理、分類、聚類、屬性選擇、關聯規則及可視化等,并對挖掘結果進行統計分析,指出 WEKA 系統存在的缺陷及發展前景。為了彌補 WEKA 系統存在的一些缺陷,本文還在 WEKA 平台下進行二次開發,根據描述的 k-中心點輪換法的算法流程,利用 eclipse 在 WEKA 平台下嵌入該算法,并對其進行優化以提高其聚類效果。
雖然本文研究的 WEKA 資料挖掘工具目前還處于研究階段,但它卻彙集了多樣化的機器學習算法,是資料挖掘研究的理想選擇。同時,本文所研究的 k-中心點輪換算法改進了傳統的 k-中心點算法,避免陷入局部最優,并進行了屬性正常化、處理殘缺值等優化,聚類效果明顯提高了。
關鍵詞:資料挖掘 WEKA 聚類分析 k-中心點輪換算法
目 錄
1 前言 7
1.1 課題背景• 7
1.2 本文所做的主要工作• 7
1.3 本文結構 8
2 資料挖掘技術綜述 9
2.1 資料挖掘的定義 9
2.2 資料挖掘的基本功能• 9
2.3 資料挖掘的流程 10
2.4 資料挖掘的常用方法和技術• 11
2.5 資料挖掘的應用領域• 12
2.6 國内外資料挖掘工具現狀 13
2.7 聚類分析概述 14
2.7.1 聚類概念• 14
2.7.2 主要聚類方法的分類• 14
3 基于 WEKA 平台的資料挖掘測試 16
3.1 WEKA 系統簡介 16
3.2 WEKA 系統的特點• 16
3.2.1 WEKA 系統的檔案格式• 16
3.2.2 WEKA 系統的界面• 17
3.2.3 WEKA 實作的功能及算法• 19
3.2.4 WEKA 系統的包結構• 22
3.3 WEKA 系統的挖掘測試及結果分析• 24
3.3.1 WEKA 系統的資料挖掘過程 24
3.3.2 WEKA 系統的挖掘實驗• 25
3.3.3 WEKA 系統中存在的問題• 34
3.4 WEKA 系統的發展前景 34
4 WEKA 平台下的二次開發 35
4.1 二次開發背景及一般過程 35
4.1.1 二次開發背景 35
4.1.2 二次開發一般過程• 35
4.1.3 系統的開發與運作環境• 35
4.2 K-中心點輪換算法 35
4.3 K-中心點輪換算法的實作 37
4.3.1 K-中心點輪換算法的類子產品關系• 37
4.3.2 K-中心點輪換算法的流程圖 • 38
4.3.3 K-中心點輪換算法的類說明 39
4.4 K-中心點輪換算法的測試 45
5 總結 49
緻謝 50
參考文獻 50
附錄 51
相關說明:
1、下載下傳本站部分資料,需要注冊成為本站會員。如果你尚未注冊或登入,請首先注冊或登入。
2、48小時内下載下傳同一檔案,不重複扣金币。
3、下載下傳後請用WinRAR或WinZIP解壓縮後使用。
4、如采用迅雷等下載下傳工具下載下傳失敗,請直接用浏覽器下載下傳。
5、如仍有其他下載下傳問題,請看常見問題解答。
下載下傳位址: