天天看點

資料挖掘标準流程——CRISP-DM

CRISP-DM (cross-industry standard process fordata mining), 即為"跨行業資料挖掘過程标準". 此KDD過程模型于1999年歐盟機構聯合起草.通過近幾年的發展,CRISP-DM 模型在各種KDD過程模型中占據領先位置,采用量達到近60%.(資料引自Cios andKurgan于2005年合著的論文trands in data mining and knowledge discovery中)

   在1996年,當時資料挖掘市場是年輕而不成熟的,但是這個市場顯示了爆炸式的增長。三個在這方面經驗豐富的公司DaimlerChrysler、SPSS、NCR發起建立一個社團,目的建立資料挖掘方法和過程的标準。在獲得了EC(EuropeanCommission)的資助後,他們開始實作他們的目标。為了征集業界廣泛的意見共享知識,他們建立了CRISP-DM SpecialInterest Group(簡稱為SIG)。

   大概在1999年,SIG(CRISP-DM Special InterestGroup)組織開發并提煉出CRISP-DM,同時在Mercedes-Benz和OHRA(保險領域)企業進行了大規模資料挖掘項目的實際試用。SIG還将CRISP-DM和商業資料挖掘工具內建起來。SIG組織目前在倫敦、紐約、布魯塞爾已經發展到200多個成員。2000年,CRISP-DM1.0版正式推出,應該說CRISP-DM是實際項目的經驗總結和理論抽象。CRISP-DM強調,DM不單是資料的組織或者呈現,也不僅是資料分析和統計模組化,而是一個從了解業務需求、尋求解決方案到接受實踐檢驗的完整過程。

資料挖掘标準流程——CRISP-DM

CRISP-DM的六個階段

CRISP-DM過程描述

  CRISP-DM模型為一個KDD工程提供了一個完整的過程描述。一個資料挖掘項目的生命周期包含六個階段。這六個階段的順序是不固定的,我們經常需要前後調整這些階段。這依賴每個階段或是階段中特定任務的産出物是否是下一個階段必須的輸入。上圖中箭頭指出了最重要的和依賴度高的階段關系。

   上圖的外圈象征資料挖掘自身的循環本質――在一個解決方案釋出之後一個資料挖掘的過程才可以繼續。在這個過程中得到的知識可以觸發新的,經常是更聚焦的商業問題。後續的過程可以從前一個過程得到益處。

   業務了解(Business Understanding)

   最初的階段集中在了解項目目标和從業務的角度了解需求,同時将這個知識轉化為資料挖掘問題的定義和完成目标的初步計劃。

   資料了解(Data Understanding)

   資料了解階段從初始的資料收集開始,通過一些活動的處理,目的是熟悉資料,識别資料的品質問題,首次發現資料的内部屬性,或是探測引起興趣的子集去形成隐含資訊的假設。

   資料準備(Data Preparation)

   資料準備階段包括從未處理資料中構造最終資料集的所有活動。這些資料将是模型工具的輸入值。這個階段的任務有個能執行多次,沒有任何規定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗資料。

   模組化(Modeling)

   在這個階段,可以選擇和應用不同的模型技術,模型參數被調整到最佳的數值。一般,有些技術可以解決一類相同的資料挖掘問題。有些技術在資料形成上有特殊要求,是以需要經常跳回到資料準備階段。

   評估(Evaluation)

   到項目的這個階段,你已經從資料分析的角度建立了一個高品質顯示的模型。在開始最後部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確定模型可以完成業務目标。這個階段的關鍵目的是确定是否有重要業務問題沒有被充分的考慮。在這個階段結束後,一個資料挖掘結果使用的決定必須達成。

   部署(Deployment)

   通常,模型的建立不是項目的結束。模型的作用是從資料中找到知識,獲得的知識需要便于使用者使用的方式重新組織和展現。根據需求,這個階段可以産生簡單的報告,或是實作一個比較複雜的、可重複的資料挖掘過程。在很多案例中,這個階段是由客戶而不是資料分析人員承擔部署的工作。

繼續閱讀