天天看點

《R語言資料分析與挖掘實戰》——1.5 常用資料挖掘模組化工具

本節書摘來自華章計算機《r語言資料分析與挖掘實戰》一書中的第1章,第1.5節,作者 張良均,雲偉标,王路,劉曉勇,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

資料挖掘是一個反複探索的過程,隻有将資料挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,并在實施過程中不斷地磨合,才能取得好的效果。下面簡單介紹幾種常用的資料挖掘模組化工具。

(1)r

r是一種為統計計算和圖形顯示而設計的語言環境,是貝爾實驗室的rick becker、john chambers和allan wilks開發的s語言的一種實作。在s語言源代碼的基礎上,1995年auckland大學的robert gentleman和ross ihaka編寫了一套能執行s語言的軟體,并将該軟體的源代碼全部公開,這就是r軟體的雛形,其指令被統稱為r語言。使用者可以自己設計相應的程式,并且可以做成拓展包釋出。其他的使用者可以根據需要下載下傳并加載軟體包,進而非常友善地拓展r的内容。

(2)python

python是一門簡單易學且功能強大的程式設計語言。它擁有高效的進階資料結構,并且能夠用簡單而又高效的方式進行面向對象程式設計。python優雅的文法和動态類型,再結合它的解釋性,使其在大多數平台的許多領域成為編寫腳本或開發應用程式的理想語言。

(3)sas enterprise miner

enterprise miner(em)是sas推出的一個內建的資料挖掘系統,允許使用和比較不同的技術,同時還內建了複雜的資料庫管理軟體。它的運作方式是通過在一個工作空間(workspace)中按照一定的順序添加各種可以實作不同功能的節點,然後對不同節點進行相應的設定,最後運作整個工作流程(workflow),便可以得到相應的結果。

(4)ibm spss modeler

ibm spss modeler原名clementine,2009年被ibm收購後對産品的性能和功能進行了大幅度改進和提升。它封裝了最先進的統計學和資料挖掘技術,來獲得預測知識并将相應的決策方案部署到現有的業務系統和業務過程中,進而提高企業的效益。ibm spss modeler擁有直覺的操作界面、自動化的資料準備和成熟的預測分析模型,結合商業技術可以快速建立預測性模型。

(5)sql server

microsoft的sql server中內建了資料挖掘元件——analysis servers,借助sql server的資料庫管理功能,可以無縫地內建在sql server資料庫中。在sql server 2008中提供了決策樹算法、聚類分析算法、naive bayes算法、關聯規則算法、時序算法、神經網絡算法、線性回歸算法等9種常用的資料挖掘算法。但是其預測模組化的實作是基于sql server平台的,平台移植性相對較差。

(6)matlab

matlab(matrix laboratory,矩陣實驗室)是美國mathworks公司開發的應用軟體,具備強大的科學及工程計算能力,它不但具有以矩陣計算為基礎的強大數學計算能力和分析功能,而且還具有豐富的可視化圖形表現功能和友善的程式設計能力。matlab并不提供一個專門的資料挖掘環境,但它提供非常多的相關算法的實作函數,是學習和開發資料挖掘算法的很好選擇。

(7)weka

weka(waikato environment for knowledge analysis)是一款知名度較高的開源機器學習和資料挖掘軟體。進階使用者可以通過java程式設計和指令行來調用其分析元件。同時,weka也為普通使用者提供了圖形化界面,稱為weka knowledge flow environment和weka explorer,可以實作預處理、分類、聚類、關聯規則、文本挖掘、可視化等。

(8)tipdm

tipdm(頂尖資料挖掘平台)使用java語言開發,能從各種資料源擷取資料,建立多種資料挖掘模型。tipdm目前已內建數十種預測算法和分析技術,基本覆寫了國外主流挖掘系統支援的算法。tipdm支援資料挖掘流程所需的主要過程:資料探索(相關性分析、主成分分析、周期性分析);資料預處理(屬性選擇、特征提取、壞資料處理、空值處理);預測模組化(參數設定、交叉驗證、模型訓練、模型驗證、模型預測);聚類分析、關聯規則挖掘等一系列功能。