天天看點

SAS資料挖掘淺談

随着大資料的興起,資料挖掘這一行也越來越火了。同時,各類大資料分析挖掘工具也越來越多,從最早的c、java、excel、spss、sas到現在python、r、hadoop,跨越了各行各業,從零售到網際網路,從金融到醫療,都有了很大的發展。從我個人工作一年的經曆來看,光資料挖掘工具,就用到了sas、python、r、hadoop。從我個人看來,python用于資料清洗确實比較友善,但是對于資料量稍微大一點,python的運作效率還是不如sas,r更适合跑算法模型,但是一旦資料到g級别的話,對于本機電腦如果隻有4g的記憶體來說,還是有點雞肋,相對sas來說,r對于硬體要求相對來說要更高,hadoop我用到的就隻有其hive資料庫了,從存儲量級來看,确實很不錯,但是也存在性能不穩定以及資料的傳輸查詢效率要遠遠低于傳統的資料庫oracle、td等缺點。

從我個人喜好來看,雖然sas還是比較古老的資料分析統計工具,但是我個人認為資料挖掘這一工具并不會被淘汰,主要有這麼幾點:

1.資料清洗的高效性:sas資料處理通過結合data步和proc步來進行,效率非常高。一個簡單的data步,可以實作各種各樣的資料清洗,包括資料類型轉化、資料觀測的更改、删除、填補、簡單的資料統計等等。而且承受的資料量級即使是千萬級以上也不在話下。

2.模型算法的多樣性:sas裡同樣包含多種算法,從常見的聚類、邏輯回歸、線性回歸、非線性回歸、到決策樹、神經網絡等,即使是本身不包含的協同過濾、最短路徑、最小生成樹等算法,我們也能夠通過sas程式設計實作。

3.sas宏功能:sas裡面的宏特别常見,應用也特别廣泛,從資料清洗的批量計算,到模組化的參數輸入,其實這一類宏也類似于r的所謂算法包,隻是在sas裡面,以宏的形式存在着,我們同樣可以通過以%macroname(宏參)的形式調用這些宏參數,避免重複繁瑣的計算。同時,我們可以随時因為需求的改變,更改宏的定制,非常友善。

4.sas iml矩陣子產品:這一模型在python中的numpy和r中matrix是類似的,通過對應的proc iml過程,能夠實作python和r中對應的功能,而且計算方式也非常靈活,快捷。