
為什麼要寫這本書
linkedin對全球超過3.3億使用者的工作經曆和技能進行分析後得出,目前最受關注的25項技能中,對資料挖掘人才的需求排名第一。那麼資料挖掘是什麼?
資料挖掘是從大量資料(包括文本)中挖掘出隐含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支援的模型,提供預測性決策支援的方法、工具和過程。資料挖掘有助于企業發現業務的發展趨勢,揭示已知的事實,預測未知的結果,是以“資料挖掘”已成為企業保持競争力的必要方法。
但跟國外相比,我國由于資訊化程度不太高,企業内部資訊不完整,零售業、銀行、保險、證券等對資料挖掘的應用并不太理想。但随着市場競争的加劇,各行業對資料挖掘技術的意願越來越強烈,可以預計,未來幾年各行業的資料分析應用一定會從傳統的統計分析發展到大規模資料挖掘應用。在大資料時代,資料過剩、人才短缺,資料挖掘專業人才的培養又需要專業知識和職業經驗積累。是以,本書注重資料挖掘理論與項目案例實踐相結合,可以讓讀者獲得真實的資料挖掘學習與實踐環境,更快、更好地學習資料挖掘知識與積累職業經驗。
總體來說,随着雲時代的來臨,大資料技術将具有越來越重要的戰略意義。大資料已經滲透到每一個行業和業務職能領域,逐漸成為重要的生産要素,人們對于海量資料的運用預示着新一輪生産率增長和消費者盈餘浪潮的到來。大資料分析技術将幫助企業使用者在合理的時間内攫取、管理、處理、整理海量資料,為企業經營決策提供積極的幫助。大資料分析作為資料存儲和挖掘分析的前沿技術,廣泛應用于物聯網、雲計算、移動網際網路等戰略性新興産業。雖然大資料目前在國内還處于初級階段,但是其商業價值已經顯現出來,特别是有實踐經驗的大資料分析人才更是各企業争奪的熱門。為了滿足日益增長的對大資料分析人才的需求,很多大學開始嘗試開設不同程度的大資料分析課程。“大資料分析”作為大資料時代的核心技術,必将成為高校數學與統計學專業的重要課程之一。
本書特色
筆者從實踐出發,結合大量資料挖掘工程案例與教學經驗,以真實案例為主線,深入淺出地介紹資料挖掘模組化過程中的有關任務:資料探索、資料預處理、分類與預測、聚類分析、時序預測、關聯規則挖掘、智能推薦、偏差檢測等。是以,本書的編排以解決某個應用的挖掘目标為前提,先介紹案例背景,提出挖掘目标,再闡述分析方法與過程,最後完成模型建構,在介紹模組化過程中會穿插操作訓練,把相關的知識點嵌入相應的操作過程中。為友善讀者輕松地擷取一個真實的實驗環境,本書使用大家熟知的r語言對樣本資料進行處理以進行挖掘模組化。
本書适用對象
開設有資料挖掘課程的高校教師和學生。
目前國内不少高校将資料挖掘引入大學教學中,在數學、計算機、自動化、電子資訊、金融等專業開設了資料挖掘技術相關的課程,但目前這一課程的教學仍然主要限于理論介紹。因為單純的理論教學過于抽象,學生了解起來往往比較困難,教學效果也不甚理想。本書提供的基于實戰案例和模組化實踐的教學,能夠使師生充分發揮互動性和創造性,做到理論聯系實際,使師生獲得最佳的教學效果。
需求分析及系統設計人員。
這類人員可以在了解資料挖掘原理及模組化過程的基礎上,結合資料挖掘案例完成精确營銷、客戶分群、交叉銷售、流失分析、客戶信用記分、欺詐發現、智能推薦等資料挖掘應用的需求分析和設計。
資料挖掘開發人員。
這類人員可以在了解資料挖掘應用需求和設計方案的基礎上,結合本書提供的基于第三方的接口快速完成資料挖掘應用的程式設計實作。
進行資料挖掘應用研究的科研人員。
許多科研院所為了更好地對科研工作進行管理,紛紛開發了适應自身特點的科研業務管理系統,并在使用過程中積累了大量的科研資訊資料。但是,這些科研業務管理系統一般沒有對這些資料進行深入分析,對資料所隐藏的價值并沒有充分挖掘利用。科研人員需要利用資料挖掘模組化工具及有關方法論來深挖科研資訊的價值,進而提高科研水準。
關注進階資料分析的人員。
業務報告和商業智能解決方案對于了解過去和現在的狀況可能是非常有用的。但是,資料挖掘的預測分析解決方案還能使這類人員預見未來的發展狀況,讓他們的機構能夠先發制人,而不是處于被動。因為資料挖掘的預測分析解決方案可将複雜的統計方法和機器學習技術應用到資料之中,通過使用預測分析技術來揭示隐藏在交易系統或企業資源計劃(erp)、結構資料庫和普通檔案中的模式與趨勢,進而為這類人員做決策提供科學依據。
如何閱讀本書
本書共16章,分三個部分:基礎篇、實戰篇、提高篇。基礎篇介紹了資料挖掘的基本原理,實戰篇介紹了多個真實案例,通過對案例深入淺出的剖析,使讀者在不知不覺中獲得資料挖掘項目經驗,同時快速領悟看似難懂的資料挖掘理論。讀者在閱讀過程中,應充分利用随書配套的案例模組化資料,借助相關的資料挖掘模組化工具,通過上機實驗快速了解相關知識與理論。
第一部分是基礎篇(第1~5章),第1章的主要内容是資料挖掘概述;第2章對本書所用到的資料挖掘模組化工具——r語言進行了簡明扼要的說明;第3~5章對資料挖掘的模組化過程,包括資料探索、資料預處理及挖掘模組化的常用算法與原理進行了介紹。
第二部分是實戰篇(第6~15章),重點對資料挖掘技術在電力、航空、醫療、網際網路、生産制造以及公共服務等行業的應用進行了分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目标,再闡述分析方法與過程,最後完成模型建構的順序進行的。在模組化過程的關鍵環節,穿插程式實作代碼。最後通過上機實踐,加深讀者資料挖掘技術在案例應用中的了解。
第三部分是提高篇(第16章),介紹了基于r語言二次開發的資料挖掘應用軟體——tipdm資料挖掘模組化工具,并以此工具為例詳細介紹了基于r語言完成資料挖掘二次開發的各個步驟,使讀者體驗到通過r語言實作資料挖掘二次開發的強大魅力。
勘誤和支援
除封面署名外,參加本書編寫工作的還有樊哲、陳庚、盧丹丹、魏潤潤、範正豐、徐英剛、廖曉霞、劉名軍、李成華、劉麗君等。由于筆者的水準有限,編寫時間倉促,書中難免會出現一些錯誤或者不準确的地方,懇請讀者批評指正。
緻謝
本書編寫過程中,得到了廣大企事業機關科研人員的大力支援!在此謹向廣東電力科學研究院、廣西電力科學研究院、廣東電信規劃設計院、珠江/黃海水産研究所、輕工業環境保護研究所、華南師範大學、廣東工業大學、廣東技術師範學院、南京中醫藥大學、華南理工大學、湖南師範大學、韓山師範學院、廣東石油化工學院、中山大學、廣州泰迪智能科技有限公司、武漢泰迪智慧科技有限公司等機關給予支援的專家及師生緻以深深的謝意。
張良均
[基 礎 篇
第1章 資料挖掘基礎
<a href="https://yq.aliyun.com/articles/108359/"> 1.2 從餐飲服務到資料挖掘</a>
<a href="https://yq.aliyun.com/articles/108362/"> 1.3 資料挖掘的基本任務</a>
<a href="https://yq.aliyun.com/articles/108378/"> 1.4 資料挖掘模組化過程</a>
1.4.1 定義挖掘目标
1.4.2 資料取樣
1.4.3 資料探索
1.4.4 資料預處理
1.4.5 挖掘模組化
1.4.6 模型評價
<a href="https://yq.aliyun.com/articles/108389/"> 1.6 小結</a>
[第2章 r語言簡介
<a href="https://yq.aliyun.com/articles/108417/"> 2.2 r使用入門</a>
2.2.1 r操作界面
2.2.2 rstudio視窗介紹
2.2.3 r常用操作
<a href="https://yq.aliyun.com/articles/108428/"> 2.3 r資料分析包</a>
<a href="https://yq.aliyun.com/articles/108433/"> 2.4 配套附件使用設定</a>
<a href="https://yq.aliyun.com/articles/108437/"> 2.5 小結</a>
[第3章 資料探索
3.1.1 缺失值分析
3.1.2 異常值分析
3.1.3 一緻性分析
<a href="https://yq.aliyun.com/articles/108509/"> 3.2 資料特征分析</a>
3.2.1 分布分析
3.2.2 對比分析
3.2.3 統計量分析
3.2.4 周期性分析
3.2.5 貢獻度分析
3.2.6 相關性分析
<a href="https://yq.aliyun.com/articles/108562/"> 3.3 r語言主要資料探索函數</a>
3.3.1 統計特征函數
3.3.2 統計作圖函數
<a href="https://yq.aliyun.com/articles/108565/"> 3.4 小結</a>
第4章 資料預處理
4.1 資料清洗
4.1.1 缺失值處理
4.1.2 異常值處理
4.2 資料內建
4.2.1 實體識别
4.2.2 備援屬性識别
4.3 資料變換
4.3.1 簡單函數變換
4.3.2 規範化
4.3.3 連續屬性離散化
4.3.4 屬性構造
4.3.5 小波變換
4.4 資料規約
4.4.1 屬性規約
4.4.2 數值規約
4.5 r語言主要資料預處理函數
4.6 小結
第5章 挖掘模組化
5.1 分類與預測
5.1.1 實作過程
5.1.2 常用的分類與預測算法
5.1.3 回歸分析
5.1.4 決策樹
5.1.5 人工神經網絡
5.1.6 分類與預測算法評價
5.1.7 r語言主要分類與預測算法函數
5.2 聚類分析
5.2.1 常用聚類分析算法
5.2.2 k-means聚類算法
5.2.3 聚類分析算法評價
5.2.4 r語言主要聚類分析算法函數
5.3 關聯規則
5.3.1 常用關聯規則算法
5.3.2 apriori算法
5.4 時序模式
5.4.1 時間序列算法
5.4.2 時間序列的預處理
5.4.3 平穩時間序列分析
5.4.4 非平穩時間序列分析
5.4.5 r語言主要時序模式算法函數
5.5 離群點檢測
5.5.1 離群點檢測方法
5.5.2 基于模型的離群點檢測方法
5.5.3 基于聚類的離群點檢測方法
5.6 小結
實 戰 篇
第6章 電力竊漏電使用者自動識别
6.1 背景與挖掘目标
6.2 分析方法與過程
6.2.1 資料抽取
6.2.2 資料探索分析
6.2.3 資料預處理
6.2.4 建構專家樣本
6.2.5 模型建構
6.3 上機實驗
6.4 拓展思考
6.5 小結
第7章 航空公司客戶價值分析
7.1 背景與挖掘目标
7.2 分析方法與過程
7.2.1 資料抽取
7.2.2 資料探索分析
7.2.3 資料預處理
7.2.4 模型建構
7.3 上機實驗
7.4 拓展思考
7.5 小結
第8章 中醫證型關聯規則挖掘
8.1 背景與挖掘目标
8.2 分析方法與過程
8.2.1 資料擷取
8.2.2 資料預處理
8.2.3 模型建構
8.3 上機實驗
8.4 拓展思考
8.5 小結
第9章 基于水色圖像的水質評價
9.1 背景與挖掘目标
9.2 分析方法與過程
9.2.1 資料預處理
9.2.2 模型建構
9.2.3 水質評價
9.3 上機實驗
9.4 拓展思考
9.5 小結
第10章 家用電器使用者行為分析與事件識别
10.1 背景與挖掘目标
10.2 分析方法與過程
10.2.1 資料抽取
10.2.2 資料探索分析
10.2.3 資料預處理
10.2.4 模型建構
10.2.5 模型檢驗
10.3 上機實驗
10.4 拓展思考
10.5 小結
第11章 應用系統負載分析與磁盤容量預測
11.1 背景與挖掘目标
11.2 分析方法與過程
11.2.1 資料抽取
11.2.2 資料探索分析
11.2.3 資料預處理
11.2.4 模型建構
11.3 上機實驗
11.4 拓展思考
11.5 小結
第12章 電子商務智能推薦服務
12.1 背景與挖掘目标
12.2 分析方法與過程
12.2.1 資料抽取
12.2.2 資料探索分析
12.2.3 資料預處理
12.2.4 模型建構
12.3 上機實驗
12.4 拓展思考
12.5 小結
第13章 基于資料挖掘技術的市财政收入分析預測模型252
13.1 背景與挖掘目标
13.2 分析方法與過程
13.2.1 灰色預測與神經網絡的組合模型
13.2.2 資料探索分析
13.2.3 模型建構
13.3 上機實驗
13.4 拓展思考
13.5 小結
第14章 基于基站定位資料的商圈分析
14.1 背景與挖掘目标
14.2 分析方法與過程
14.2.1 資料抽取
14.2.2 資料探索分析
14.2.3 資料預處理
14.2.4 模型建構
14.3 上機實驗
14.4 拓展思考
14.5 小結
第15章 電商産品評論資料情感分析
15.1 背景與挖掘目标
15.2 分析方法與過程
15.2.1 評論資料采集
15.2.2 評論預處理
15.2.3 文本評論分詞
15.2.4 模型建構
15.3 上機實驗
15.4 拓展思考
15.5 小結
提 高 篇
第16章 基于r語言的資料挖掘二次開發
16.1 混合程式設計應用體驗——tipdm資料挖掘平台
16.2 二次開發過程環境配置
16.3 r語言資料挖掘二次開發執行個體
16.4 小結
參考資料