天天看點

基于CRISP的資料挖掘有哪些坑?

crisp-dm (cross-industry standard process for data mining),即跨行業資料挖掘标準流程,描述了資料挖掘的生命周期,是迄今為止最流行的資料挖掘流程,更多crisp-dm的應用示例請看《crisp-dm, still the top methodology for analytics, data mining, or data science projects》這篇文章。

之是以許多資料分析人員使用crisp-dm,因為他們需要的是一種可重複使用的分析方法。然而,如何在日常工作中使用crisp-dm方法時,仍存在一些問題。排名前四的4個問題分别是對業務需求缺乏認知,盲目的返工,盲目的部署和無法形成疊代。決策模組化和決策管理可以解決這些問題,使crisp-dm流程的價值最大化,并確定模型分析的有效性。

完整的crisp-dm資料挖掘流程的各個階段如圖1所示。下面介紹每個階段所要完成的任務。

基于crisp-dm的完整資料挖掘流程圖

基于CRISP的資料挖掘有哪些坑?

圖1 基于crisp-dm的完整資料挖掘流程圖

1.業務了解階段(business understanding):集中在了解項目目标和從業務的角度了解需求,定義資料挖掘問題和完成目标的初步計劃;

2.資料了解階段(data understanding):從初始的資料收集開始,通過一些活動的處理,目的是熟悉資料,發現資料的内部屬性,或是探測引起興趣的子集去形成隐含資訊的假設;

3.資料準備階段(data preparation):資料準備階段包括從未處理的資料中構造最終資料集的所有活動。這些資料将是模組化階段的輸入值,任務包括屬性的選擇、資料表、記錄的抽取,以及将資料轉換為模型工具所需的格式和清洗資料;

4.模組化階段(modeling):可以選擇和應用不同的模型技術,模型參數被調整到最佳的數值。有些技術在資料格式上有特殊要求,是以需要經常跳回到資料準備階段;

5.評估階段(evaluation):經過模組化階段後,已建立了一個高品質的決策模型,但在開始最後部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確定模型可以完成業務目标。這個階段的關鍵目的是确定是否有重要業務問題沒有被充分的考慮,評估模型是否有達到最初設定的目标;

6.部署階段(deploying):根據使用者需求,實作一個重複的、複雜的資料挖掘過程。

最外面這一圈表示資料挖掘自身的循環本質,每一個解決方案部署之後代表另一個資料挖掘的過程也已經開始了,需要在運作過程中不斷疊代、更新模型。

crisp-dm是一個偉大的架構,它可以讓項目組聚焦于挖掘真正的商業價值上。crisp-dm路程已經存在有很長時間了,許多使用crisp-dm流程的項目常常會走捷徑,這些捷徑中的有一些是有意義的,但捷徑往往會導緻項目使用不完整的流程,如圖2所示。

典型的不完整crisp-dm

基于CRISP的資料挖掘有哪些坑?

圖2 典型的不完整crisp-dm

這種不完整的crisp-dm流程存在四個問題,具體包括:

1.業務目标不清晰

不能一開始就陷入細節,應該真正去了解業務問題以及明确一個模型可以發揮什麼作用,确定項目團隊的業務目标和提出衡量項目成功的名額。“了解”了業務目标,團隊想把工作負擔最小化,就跳入項目的最有趣的部分–分析資料,但這樣做隻産出有趣的模型,而不能滿足真正的商業需要。

2.盲目地返工

一些分析團隊隻用分析術語來評估他們的模型,認為如果模型隻要做到可預測,那麼它就是一個好的模型。大多數人通常可以意識到模型是有問題的,就會嘗試檢查他們的模型是否符合業務目标。但如果缺乏對商業問題的充分認識,這樣的檢查往往是非常困難的。如果他們開發的模型不符合業務需求,此時團隊幾乎沒得選擇,此時大多數人是在嘗試找到新資料或新的模組化技術,而不是與他們的業務合作夥伴一起重新評估業務問題。

3.盲目地部署

一些分析團隊根本不考慮他們模型的部署和操作的易用性。做得好些的團隊可以認識到他們建構的模型必将處理實時資料,資料通常存儲在資料庫中,或嵌在式作業系統中。即使是這樣的團隊通常也沒有參與到部署工作中,不清楚模型是如何部署的,并不把部署當做分析工作的一部分,結果就是模型直接丢給it團隊去部署,模型是否容易部署、以及在生産環境是否可用都是别人的問題。這增加了模型部署的時間和成本,并産生了大量從未對業務産生影響模型。

4.無法形成疊代

分析專家了解模型的生命周期,為了保證模型的可用性,需要對模型保持更新。他們知道随着商業環境變化,模型的價值會改變,驅動模型的資料模式可能會改變。但他們認為這是另一個時間點的問題。由于他們缺少對業務問題的足夠認識,往往難以确定如何評估模型的表現,相比模型建立階段,他們在模型疊代、修改上的投入更少。畢竟解決另一個新問題更有趣。這使得老的模型不受監控和保護,進而破壞了模型的長期價值。

以上任一問題都可能使建構出來的模型毫無商業價值,真正需要利用分析的組織,特别是資料挖掘、預測和機器學習等更進階的分析,必須避免這些問題。

解決這些問題需要明确、清晰地關注決策,圍繞着決策展開,包括需要改善的決策方法,改善意味着什麼,做能實際改善決策的分析模型,設計可以輔助決策的系統,還需要明确在怎樣的外部環境下需要重新評估模型。

本文轉自d1net(轉載)