天天看點

《資料挖掘:實用案例分析》——導讀

《資料挖掘:實用案例分析》——導讀

為什麼要寫這本書

  現在,什麼程式員最稀缺?什麼技術最火?回答:資料挖掘!

  資料挖掘是從大量資料(包括文本)中挖掘出隐含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支援的模型,提供預測性決策支援的方法、工具和過程。資料挖掘有助于企業發現業務的趨勢,揭示已知的事實,預測未知的結果,是以“資料挖掘”已成為企業保持競争力的必要方法。

  近年來企業所處理的資料每五年就會呈現倍數增長。大部分的企業并沒有資料不足的問題,過度的資料重複與不一緻才是大問題,這使得企業在使用、有效管理以及将這些資料用于決策過程方面都遭遇到了問題。是以未來幾年,随着大資料迅速發展,資料挖掘将是極為重要的成長領域,其應用會越來越廣泛,可以說,隻要企業掌握有分析價值的資料源,皆可進行高價值的資料挖掘分析。目前資料挖掘主要應用在電信、零售、農業、網際網路、金融、電力、生物、化工和醫療等行業。典型的應用如:客戶細分、流失預警、價值評估、交叉銷售、欺詐發現、精準營銷、故障診斷等。

  總的來說,跟國外相比,我國由于資訊化程度不太高、企業内部資訊不完整,零售業、銀行、保險、證券等對資料挖掘的應用并不太理想。但随着市場競争的加劇,各行業應用資料挖掘技術的意願越來越強烈,可以預計,未來幾年各行業的資料分析應用一定會從傳統的統計分析發展到大規模資料挖掘應用。

  本書作者從實踐出發,結合大量資料挖掘工程案例,總結出資料挖掘模組化過程應完成的任務主要包括:資料探索、資料預處理、分類與回歸、聚類分析、時序預測、關聯規則挖掘、偏差檢測等。是以,本書的編排以解決某個應用的挖掘目标為前提,先介紹案例背景,再闡述分析方法與過程,最後完成模型建構,在介紹模組化過程的同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中。

  本書CD光牒中附資料挖掘模組化案例資料檔案、資料挖掘算法工具包源程式及使用說明。

讀者對象

需求分析及系統設計人員。

  這類人員可以在了解資料挖掘原理及模組化過程的基礎上,結合資料挖掘案例完成精确營銷、客戶分群、交叉銷售、客戶流失分析、客戶信用記分、欺詐發現等資料挖掘應用的需求分析和設計。

資料挖掘開發人員。

  這類人員可以在了解資料挖掘應用需求和設計方案的基礎上,結合本書提供的基于第三方接口快速完成資料挖掘應用的程式設計實作。

開設有資料挖掘課程的高校教師和學生。

  目前國内不少高校将資料挖掘引入大學教學中,在數學、自動化、電子資訊、金融等專業開設了資料挖掘技術相關的課程。目前這一課程的教學仍主要限于理論介紹,因為過于抽象,學生了解起來往往比較困難,教學效果不甚理想。本書提供的基于實戰案例和模組化實踐的教學,能夠使師生充分發揮互動性和創造性,理論聯系實際,進而獲得最佳的教學效果。

進行資料挖掘應用研究的科研人員。

  許多科研院所為了更好地對科研工作進行管理,紛紛開發了适應自身特點的科研業務管理系統,并在使用過程中積累了大量的科研資訊資料。但是,這些科研業務管理系統一般沒有對這些資料進行深入分析的功能,對資料所隐藏的價值并沒有充分挖掘利用。科研人員需要資料挖掘模組化工具及有關方法論來深挖科研資訊的價值,進而提高科研水準。

關注進階資料分析的人員。

  業務報告和商業智能解決方案對于了解過去和現在的狀況是非常有用的。但是,資料挖掘的預測分析解決方案還能使這類人員預見未來的發展狀況,讓他們的機構能夠先發制人,而不是處于被動。因為資料挖掘的預測分析解決方案将複雜的統計方法和機器學習技術應用到資料之中,通過使用預測分析技術來揭示隐藏在交易系統或企業資源計劃(erp)、結構資料庫和普通檔案中的模式和趨勢,進而為這類人員的決策提供科學依據。

  

  張良均

  2013年4月于廣州

[第1章 初識資料挖掘

<a href="https://yq.aliyun.com/articles/173585/">1.2 資料挖掘在企業商務智能應用中的定位</a>

1.2.1 資料挖掘給企業帶來最大的投資收益

1.2.2 資料挖掘從本質上提升商務智能平台的價值

1.2.3 資料挖掘讓商務智能流程真正形成閉環

<a href="https://yq.aliyun.com/articles/173588/">1.3 資訊類bi應用與知識類bi應用</a>

<a href="https://yq.aliyun.com/articles/173594/">1.4 資料挖掘現狀及應用前景</a>

<a href="https://yq.aliyun.com/articles/173596/">1.5 本章小結</a>

[第2章 資料挖掘的應用分類

2.1.1 分類與回歸模組化原理

2.1.2 分類與回歸算法

<a href="https://yq.aliyun.com/articles/173613/">2.2 聚類</a>

2.2.1 聚類分析模組化原理

2.2.2 聚類算法

<a href="https://yq.aliyun.com/articles/173664/">2.3 關聯規則</a>

2.3.1 什麼是關聯規則

2.3.2 關聯規則算法

<a href="https://yq.aliyun.com/articles/173672/">2.4 時序模式</a>

2.4.1 什麼是時序模式

2.4.2 時間序列的組合成分

2.4.3 時間序列的組合模型

2.4.4 時序算法

<a href="https://yq.aliyun.com/articles/173675/">2.5 偏差檢測</a>

<a href="https://yq.aliyun.com/articles/173677/">2.6 本章小結</a>

[第3章 資料挖掘模組化

<a href="https://yq.aliyun.com/articles/173693/">3.2 資料挖掘模組化過程</a>

3.2.1 定義挖掘目标

3.2.2 資料取樣

3.2.3 資料探索

3.2.4 預處理

3.2.5 模式發現

3.2.6 模型建構

3.2.7 模型評價

<a href="https://yq.aliyun.com/articles/173697/">3.3 常用的模組化工具</a>

<a href="https://yq.aliyun.com/articles/173701/">3.4 本章小結</a>

繼續閱讀