天天看點

《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具

本節書摘來自華章出版社《資料分析實戰

基于excel和spss系列工具的實踐》一書中的第2章,第2.2節,紀賀元 著,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

資料分析的工具有很多種(大約有十多種),每種都有其優勢和長處,也有它的缺陷。根據作者的經驗,還真沒有一種工具軟體能夠包打天下。當然從邏輯上講也應該是這樣的,如果存在一個“萬能”的軟體,那麼其他的軟體肯定就要消亡了。

筆者基于自己的經驗列出了常用統計分析軟體的利弊對比,見表2-2。

《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具
《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具

無論如何,excel都是最基礎的資料分析工具,絕大多數人都在使用excel,起碼在使用excel來收集錄入資料。

從專業分析的角度來看,excel的分析功能太弱了:資料透視表的功能還不錯,但幾乎沒有像樣的“統計”功能,圖形的功能也很弱。此外,雖然配備了數組等比較進階的功能,能夠勉強地實作程式設計中“循環”的功能,但是資料量比較大的時候,excel會變得很慢甚至不能忍受。

事實上,excel是否夠用,完全取決你手裡的資料、你的需求。如果你手裡的資料一般、需求也不複雜,excel差不多能滿足你的需求;如果你的需求很大并且需求複雜,那麼excel可能會讓你失望。

個人認為微軟office成功的一大原因,就是将進階語言vb整合到了office中,形成了vba。vba幾乎可以做所有資料分析類的事情,有人将聚類、關聯分析、主成分分析這些統計分析算法都用vba實作了,是以vba幾乎無所不能。

vba還有一個很大的優點是:excel中運用vba控制powerpoint和word,這又可以大大地提高工作效率,在excel中運用vba處理完資料後,可以直接生成相應的ppt和word檔案。

access是微軟提供的一個“半專業”的資料庫,之是以稱其為“半專業”資料庫,是因為相對于mysql、oracle這些專業資料庫而言,它的專業性确實還不夠。

access在操作靈活性等方面遠不如excel,按照筆者個人的了解,access優勢主要展現在以下三個方面:

1)相對于excel,它的資料存儲量提高了,準确地講,access資料庫最大可以存儲2gb左右的資料,至于具體能放多少條,那就要看資料的複雜度了。

2)資料一緻性檢查方面,效率特别高,例如a表中有bom料号“abc123”,我們要檢查關聯的b表中是否有該料号,在資料量比較大的情況下,使用access非常高效。

3)多條件查詢的效率很高,excel幾乎不支援多條件查詢,而access幾乎是為圖2-15所示的多條件查詢而生的。

《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具

2.2.4 spss

spss是知名度最高的專業統計軟體,據我所知,雖然現在做資料分析的人可使用多種分析工具,但spss通常是他們使用的第一款統計軟體。

spss的優點和缺點都很明顯,優點是界面美觀、功能強大,缺點是界面做得很複雜,是一款比較複雜的軟體,以至于一些使用spss多年的人都說“我就是在糊裡糊塗地用”。

值得一提的是,ibm在收購spss之後,認為spss過于學術化,ibm想對spss進行改造以增加其“商業氣息”,是以就搞出來一個“直銷”子產品(見圖2-16),裡面整合了幾個比較有用的小工具,後面會有詳細介紹。

《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具

2.2.5 xlstat

xlstat是一個小軟體,或者說是一個小插件,它是在excel環境中運作的,請見圖2-17。

《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具

xlstat插件的好處不言而喻,由于跟excel環境無縫整合,使用起來比較友善,能夠實作大多數統計分析的功能,但是缺點也很明顯,資料量一旦比較大,插件運作的效果就比較差。

是以,xlstat就是個小工具,不大能作為一個正規的統計分析軟體來使用。

2.2.6 modeler

modeler的前身是美國著名的clementine軟體,現在也被ibm收購了,成為ibm軟體的一員。modeler是專業資料挖掘軟體,它包含了關聯分析等著名的資料挖掘算法,而這些算法是spss所不包含的。

modeler的一個顯著的優點是完全圖示化,如圖2-18所示modeler的分析界面。

《資料分析實戰 基于EXCEL和SPSS系列工具的實踐》一2.2 選擇稱手的軟體工具

個人認為,專業統計挖掘軟體能夠做到幾乎完全圖示化的操作,确實相當不容易,modeler也受到了廣大非統計挖掘專業客戶的歡迎。

2.2.7 r語言

r是近年來快速發展的一個統計語言,個人認為其最大的好處之一就是開源,在商務上它是基本免費的,這對于廣大使用者尤其是中小使用者來說是一個福音。

對于r的學習需要有一定的統計基礎,r有很多開發好的統計包,如果對這些統計包很熟悉的話,你會發現r實際上有一個共享的機制,就是别人可能老早就把你要做的統計分析功能做好了,你隻要直接調用就可以了,這就是一個很大的福音。

另外,r的繪圖功能非常強,絕對是專業級的繪圖功能。