1.簡介
大資料時代正在喚醒企業通過利用客戶資料獲得競争優勢的機會。資料的廣泛使用性和高度複雜性讓僅使用傳統決策技術來盈利變成不可能。
這些傳統方法主要使用電子表格,資料庫查詢和其它商業智能工具。另外,人們對從大資料中提取的有用資訊和知識方法越來越感興趣,這使得決策風格從基于經驗直覺逐漸轉變成資料驅動。
與此同時,強大的計算機和網際網路技術,海量資料和高效算法的融合,催化了資料科學和資料挖掘技術的發展,最終提高和加快資料挖掘技術的推廣并幫助企業擷取競争優勢。
本章旨在概述資料挖掘的一般概念,CRISP-DM流程以及可應用于各種商業問題的各種資料挖掘技術。
2.什麼是資料挖掘
謬誤:資料挖掘是一個計算機驅動的過程,它在龐大,複雜的資料庫中尋找模式,并自動給出結果。
事實:資料挖掘是一個使用者驅動的過程,它使用計算機浏覽大量資料,進而發現有用的規律模式。
2.1.解釋資料挖掘
資料挖掘有許多不同的定義,下面是一些有見地的分享。
“從極大的資料庫中提取從前未知的,可操作的資訊以挖掘知識的過程。”——Aaron Zornes, The META Group
“通過使用模式識别技術以及統計和數學技術篩選存儲在資料庫中的大量資料來發現有意義的新相關性,模式和趨勢的過程。”
Erick Brethenoux, Gartner Group
“資料挖掘用于發現資料中的模式和關系,以幫助您做出更好的商業決策。”
Robert Small, Two Crows
有許多資料挖掘相關的同義詞可以互換使用,例如:資料科學,預測分析,資料分析,模式分析/識别,商業智能(BI),知識挖掘,知識提取,大資料分析和文本分析。
然而,他們都有相同的意義,即從資料中提取知識,是以他們都屬于資料挖掘這一大類。
資料挖掘是一個多元的概念,需要從四種不同的觀點考慮:
-資料透視
-知識觀念
-技術利用
-應用前景
資料透視:考慮不同的資料源如關系結構資料庫,非關系結構資料庫如XML資料庫,多媒體資料,流資料和傳感器資料等;
知識觀念:包括資料分類,畫像,聚類,趨勢分析,離群分析等;
技術利用:包括機器學習算法,統計學和資料可視化等;
應用前景:十分廣泛的概念,包括一系列部門,例如:電信行業中客戶流失和客戶留存問題。零售業中客戶細分,交叉/向上的營銷政策,市場關聯分析,客戶生命周期價值等。金融行業中信用風險,記分卡,欺詐檢測等。政府。

圖2.1 知識管理金字塔和資料挖掘
圖2.1從資料管理的角度描述資料挖掘過程的位置以及通常關聯的職業。在通向金字塔頂端的過程中,資料變得更加簡潔,并且更加有潛力支援關鍵業務的決策。
3.資料挖掘思考
資料是最有價值的商業資本,也是資料挖掘的先決條件。有價值的資訊源可以在企業中找到,并且邊界很廣。例如:内部和外部的資料源,既有結構化的,又有非結構化的。
内部資料源(例如資料庫,報告和電子表格)存儲了大量的資料。外部資料庫和各種網際網路資源也是擷取商業價值的極好的方法,可以和内部資源結合,以便更好的洞察正在研究的問題。
資料的品質是有效資料挖掘的關鍵。沒有适當的資料,即使雇傭了最好的資料挖掘專家,也不可能獲得任何有價值的知識。最重要的資料品質要求是:
–相關性 — 資料是否适用于目前問題
–有效性 — 資料是否遵循目前環境規律
–完整性 — 噪聲資料或丢失資料是影響資料完整性的兩大因素
–一緻性 — 資訊孤島是資料不一緻性的主要原因,利用內建資訊系統可以解決這個問題
–展示 — 可視化;門戶網站,聚合應用,儀表盤,圖表,電子表格等
–信賴 — 使用可靠的資料源,有效的處理主觀資料
–及時性 — 最小化資料收集和資料處理之間的時間延遲
4.資料挖掘的政策
在資料挖掘項目之前有思考回答以下問題:
– 需要解決的實質性問題是什麼?
– 什麼資料是有用的,哪一部分資料是相關的?
– 在項目開始前需要什麼樣的資料預處理和清洗?
– 應該應用哪些資料挖掘技巧?
– 資料挖掘的結果應該被怎樣分析,驗證,使用?
– 如何從資料挖掘分析中獲得最多的資訊?
回答這些問題的最好方法是遵循結構化的方法:資料挖掘的跨行業标準(CRISP-DM)。
5. CRISP-DM 資料挖掘跨行業标準
CRISP-DM是一個行業标準的資料挖掘流程框。它描述了資料科學家用來解決問題的常用主流方法。
CRISP-DM參考模型鼓勵最佳實踐,并為企業提供更好更快實作資料挖掘的最優架構。
圖2.2 CRISP-DM參考模型的各個階段
如圖2.2所示,資料挖掘生命周期由六個階段組成。各階段的順序并不固定,在整個過程中經常需要往返移動。
每一過程的結果都輸入到下一階段,如箭頭所示。外部周期代表了資料挖掘本身的周期性。從所部署的解決方案中吸取的經驗教訓可能會引發新的業務問題。總之,CRISP-DM階段是:
-商業了解 — 确定商業目标和資料挖掘目标
-資料了解 — 收集,描述,研究和驗證資料的意義和品質
-資料準備 — 選擇,清理,構造,內建和格式化資料
-建立模型 — 選擇,建構和驗證模型
-模型評估 — 結果是否合理,是否達到業務目标?
-方法實施 — 将新知識加入到業務流程中
商業了解: 初始階段的重點是從業務角度了解項目目标和需求。随後它被定義為一個資料挖掘問題,并進一步設計成一個計劃來實作這些目标;
資料了解: 從最初的資料收集開始,讓資料科學家熟悉資料,識别資料品質問題,檢測有趣的子集以及形成有關隐藏資訊的假設;
資料準備: 涵蓋了建構最終資料集所需的所有活動。原始資料中的一些資料将被輸入到模型中。資料準備任務可能被多次執行,而不是按任何規定的順序執行。資料準備主要包括了資料畫像,資料清洗,屬性選擇,以及模組化工具的資料轉換和清理。
建立模型: 通過指定的參數并将其校準為最佳值來選擇并應用一種或多種模組化技術。 通常對于同一個資料挖掘問題有多種技術。有些技術需要特定格式的資料,是以需要疊代資料準備。
模型評估: 十分重要的階段。在最終部署模型之前,必須徹底評估模型并檢查建立模型所執行的步驟,以確定模型正确的執行業務目标。這一步的關鍵目标是确定是否存在一些尚未考慮的重要業務問題。在此階段結束時,應根據資料挖掘的結果得出結論。
與此同時,商業驗證是十分重要的。因為它評估了模型的商業優勢。商業驗證的目的是測試模型是否能在獨立的資料集上泛化,而獨立的資料集是不同于用于構模組化型的資料集的。測試此需求的最佳方案是使用圖2.3所示的測試或驗證資料集。
圖2.3驗證商業模型
部署階段将運作驗證的資料模型。根據需求的不同,部署階段可以簡化為生成報告,也可以複雜到在整個企業中實作可重複的資料挖掘的過程。例如,使用所建立的模型對實時資料進行評分,以便立即做出決策。例如:接受/拒絕貸款。
在一般情況下,執行部署步驟的是最終使用者,而不是資料分析師。是以,對于最終使用者來說,了解所建立的模型需要進行哪些操作是十分必要的。
圖2.4以粗體顯示了每個階段的概要,并以斜體顯示了一般任務和相關輸出。
圖2.4:CRISP-DM模型任務
6. 資料挖掘技術分類
圖2.5是資料挖掘的簡單分類。
最頂層的劃分将技術劃分為有因變量和沒有因變量。在該圖中,這些變量被定義為響應變量。監督方法是有響應變量的方法,無監督方法是沒有響應變量的方法。
在第二個層次,有四個不同的模型,每種模型中有兩種模型。
對于面向預測的方法,主要差別在于響應變量的性質。分類模型與分類響應變量相關,線性回歸模型與連續響應變量相關。
流程圖的底層顯示了一組最流行的資料挖掘算法,如聚類分析,關聯分析,決策樹,邏輯回歸,記分卡和線性回歸等。
圖2.5資料挖掘技術的分類