天天看點

《資料挖掘:實用案例分析》——3.3 常用的模組化工具

  資料挖掘是一個過程,隻有将資料挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,并在實施的過程中不斷地磨合才能取得成功。是以我們在選擇資料挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:

《資料挖掘:實用案例分析》——3.3 常用的模組化工具

  下面簡單介紹幾種常用的資料挖掘模組化工具:

  1.enterprise miner

  enterprise miner(簡稱em)是sas推出的一個內建的資料挖掘系統,允許使用和比較不同的技術,同時還內建了複雜的資料庫管理軟體。它的運作方式是通過在一個工作空間(workspace)中按照一定的順序添加各種可以實作不同功能的節點,然後對不同節點進行相應的設定,最後運作整個工作流程(workflow),便可以得到相應的結果。

  2.clementine

  spss的核心挖掘産品clementine提供了一個可視化的快速建立模型的環境,作為業内領先的資料挖掘平台,允許企業利用業務專業技能快速開發預測模型,并迅速部署提升決策水準。clementine能夠幫助企業達成目标:

《資料挖掘:實用案例分析》——3.3 常用的模組化工具

  clementine雖然在資料挖掘算法上做得很好,但是沒有充分考慮綜合各種預測方法來優化預測結果,另外就是其可測量性較差。

  3.intelligent miner

  ibm的intelligent miner正在競争資料挖掘工具市場的上司地位,競争力主要集中在資料探勘上。

  4.sql server

  microsoft的sql server中內建了資料挖掘工具,借助sql server的資料庫管理功能,使用者可以實作資料挖掘模組化。在sql server 2008中提供了決策樹算法、聚類分析算法、naive bayes算法、關聯規則算法、時序算法、神經網絡算法、線性回歸算法等9種常用的資料挖掘算法。但是其預測模組化的實作是基于sql server平台的,而平台移植性相對較差,也沒有考慮綜合各種預測方法來優化預測結果。

  5.matlab

  matlab(matrix laboratory,矩陣實驗室)是美國mathworks公司開發的應用軟體,具備強大的科學及工程計算能力。它不但具有以矩陣計算為基礎的強大數學計算能力和分析功能,而且還具有豐富的可視化圖形表現功能和友善的程式設計能力。它的應用領域十分廣泛,主要包括:數學計算和分析、自動控制、系統仿真、數學信号處理、圖形圖像分析、數理統計、人功智能、虛拟現實技術、金融系統等。

  6.weka

  weka(waikato environment for knowledge analysis)是一款知名度較高的開源機器學習和資料挖掘軟體。進階使用者可以通過java程式設計和指令行來調用其分析元件。同時,weka也為普通使用者提供了圖形化界面,稱為weka knowledge flow environment和weka explorer,可以實作預處理、分類、聚類、關聯規則、文本挖掘、可視化等。

  7.tipdm

  頂尖資料挖掘平台(tipdm)是廣州tipdm團隊花費數年自主研發的一個資料挖掘平台,基于雲計算和soa架構,使用java語言開發,能從各種資料源擷取資料,建立各種不同的資料挖掘模型。

  tipdm支援資料挖掘流程所需的主要過程,并提供開放的應用接口和常用算法,能夠滿足各種複雜的應用需求。支援crisp-dm流程所需的主要過程,并且完成一系列功能,包括:

《資料挖掘:實用案例分析》——3.3 常用的模組化工具

  tipdm典型應用場景見圖3-3。

《資料挖掘:實用案例分析》——3.3 常用的模組化工具

繼續閱讀