天天看點

如何選擇最适合的大資料分析軟體?

如何選擇最适合的大資料分析軟體?

現在很多廠商都說自己的産品是大資料分析軟體。如果隻是根據功能去區分這些産品,的确是件難事,因為很多工具具有相似的特征和功能。此外,有些工具的差異是非常細微的。是以,關鍵區分因素可能還是要根據企業的能力以及在資料分析方面的成熟度,重點考慮如何在易用性、算法複雜性和價格之間尋找平衡。

我們将在本文對九個主流大資料分析軟體廠商的産品進行對比,即alteryx、 ibm、knime.com、 microsoft、 oracle、 rapidminer、sap、 sas 和 teradata,其中有的廠商提供的工具不止一個。這些廠商分别代表着大資料分析市場的不同方面。我們将結合之前文章中提到的特點,對這些産品進行對比,看這些産品是如何滿足企業使用者的業務需求。

分析師的專業知識和技能。有些工具的目标閱聽人是新手使用者,有的是專業資料分析師,有的則是針對這兩種閱聽人設計的。

像ibm spss modeler、rapidminer工具、oracle advanced analytics、sap predictive analytics自動分析版本這些産品,通常針對的人群是沒有或隻有一點統計學或資料分析背景的使用者。使用者對資料進行分析、開發分析模型和設計分析工作流,基本不需要程式設計。每個廠商都把核心分析元件深藏在直覺的使用者界面下,引導分析師進行資料準備、分析、模型設計和驗證等分析程序,但是他們采用的方法可能有所不同,尤其是把一個獨立的産品(如rapidminer)和一個套件産品(如oracle産品)的一部分進行對比時,尤為不同。

像ibm spss statistics、knime analytics platform、sap predictive analytics專家分析子產品、微軟revolution analytics和teradata aster discovery platform這些工具,提供的功能複雜程度遠遠超乎專家級使用者的預期。oracle 針對hadoop的r進階分析法(oraah)是oracle大資料軟體連接配接套件中的一部分,它提供了r界面,用來管理hadoop分布式檔案系統(hdfs)資料和用r語言中編寫映射(mapper)和歸納(reducer)功能。這種靈活性對于更高水準的資料科學家來說更具吸引力。

alteryx和sas enterpriseminer可以根據使用者專業知識的水準調整功能,主要适用于這兩類使用者。總體而言,在支援更進階分析技術和模型評分方面,以及包括神經網絡、關聯分析和可視化功能等更廣泛的分析功能方面,sas enterprise miner和ibm的spss工具更加獨樹一幟。

分析多樣性。根據不同的使用者案例和應用,企業使用者可能需要支援不同類型的分析功能,使用特定類型的模組化(例如回歸、聚類、分割、行為模組化和決策樹)。這些功能已經能夠廣泛支援高水準、不同形式的分析模組化,但是還是有一些廠商投入數十年的精力,調整不同版本的算法,增加更加進階的功能。了解哪些模型與企業面臨的問題最相關,根據産品如何最好地滿足使用者的業務需求進行産品評估,這些都非常重要。

越成熟和高端(也相對更昂貴)的工具具有的分析廣度極大。oracle data miner包括了一系列知名的機器學習方法,支援聚類、預測性挖掘和文本挖掘。ibm spss産品的兩個版本都提供多套分析技術和模型。sas enterprise miner支援許多算法和技術,包括決策樹、時間序列、神經網絡、線性和邏輯回歸、序列和網絡線路分析、購物籃分析和連接配接分析。

新一代(有時價格更為便宜)産品支援不同的模型,但是算法複雜程度可能較窄。alteryx analytics gallery的模型庫存包含以下功能,如回歸分析、決策樹、關聯規則分析、分類和時間序列分析。knime包含文本挖掘、圖像挖掘和時間序列分析的方法,也從其他開源項目(如weka、r和jfreechart)內建機器學習算法。

分析多樣性的另一方面是程式設計語言和統計工具(如r)的內建,将現有庫和使用者自定義功能進行內建。事實上,與r內建可以說是越來越關鍵的差別點。alteryx designer、微軟revolution analytics、sas enterprise miner、teradata aster discovery platform、oracle oraah和knime的分析平台,都提供r的接口,支援r的內建。

資料範圍分析。要分析的資料範圍涉及很多方面,如結構化和非結構化資訊,傳統的本地資料庫和資料倉庫、基于雲端的資料源,大資料平台(如hadoop)上的資料管理等。但是,不同産品對非傳統資料湖(在hadoop内或其他用于提供橫向擴充的nosql資料管理系統内)上的資料管理提供的支援程度不一。如何選擇産品,企業必須考慮擷取和處理資料量及資料種類的特定需求。

擴充和高性能支援。是否需要可擴充的性能,這是由企業資料量和分析需求決定的。小型企業資料量較小,使用的産品可以不具備與可用資源擴充的性能特點,例如低端工具的入門級版本(如rapidminer、 knime、 微軟 revolution r open、alteryx designer),可以在桌面系統上運作,不需要額外的伺服器元件。

大型企業很有可能需要分析的資料集庫存更大,使用者群更廣。這就提出了兩個額外的要求——高性能和協作便利性。産品對于高性能構架的适應性表示具有可擴充性,大多數産品可以根據hadoop的并行性進行适應性改變,或者采用其他能夠實作更快運算的方式。

所有的這些産品或多或少能夠支援hadoop,包括ibm spss modeler和spss statistics、rapidminer的商業元件radoop(可以将studio前端和伺服器分析引擎連接配接到存儲在hadoop上的資料)、oracle big data discovery 和oraah工具、knime的big data extension 和cluster execution插件。teradata aster discovery platform通過teradata的mpp構架解決高性能需求。sap predictive analytics的專家分析版本能夠執行記憶體資料挖掘,高效處理大容量資料分析。微軟r enterprise則利用revolution analytics的scaler子產品解決高性能需求,這是一個支援平行化的大資料分析算法的綜合庫。采用sas enterprise miner的評分算法也能夠在hadoop環境内部署和執行。

協作。企業規模越大,越有可能需要跨部門、在諸多分析師之間分享分析、模型和應用。企業如果有很多分析師分布在各部門,對結果如何進行解釋和分析,可能會需要增加更多的共享模型和協作的方法。ibm的spss modeler gold版本提供了協作功能,rapidminer的server産品支援共享和協作。alteryx analytics gallery提供的機制能夠與外部機構成員分享雲端的進階分析應用。knime提供商業擴充,支援團隊協作。sas enterprise miner客戶伺服器構架能夠通過共享模型和其他工作産品,讓業務使用者和資料分析師增強協同合作。

廠商規模和産品內建。我們可以根據廠商規模對産品進行比較。對于我們通常所說的超級大型廠商而言,大資料分析工具僅僅是衆多産品工具中的一套産品而已。如果你所在的企業規模很大,通常需要和廠商談整套産品工具在整個企業範圍的企業級許可,那麼可以選擇像ibm、sas、sap或者oracle這種超級大型廠商。

大型廠商的大資料分析工具隻是更大的工具生态系統中的一部分。可以假定,來自同一個超級大型廠商的産品至少已內建的,并且旨在一起使用。此外,有些人更喜歡與大型廠商打交道,是因為覺得大企業的顧客服務更加穩定可靠。另一方面,這樣的大資料分析工具可能隻可以作為更大軟體許可協定的一部分才能夠購買。

規模小點的廠商,如knime、alteryx和rapidminer,收入主要來自許可授權和支援少量大資料分析産品。小型廠商可能可以讓你更緊密地與他們的産品管理和創新團隊進行接觸,你可能可以影響産品路線圖或改進功能的發展方向。在價格和許可協定所包括的特性方面,小型廠商可能更加靈活。但是,與小型廠商合作的風險也需要注意,如穩定性、用于支援的可用資源和企業可能被收購的可能性,這些都會影響客戶關系。

許可證書和維護預算。幾乎所有廠商的産品都分不同的版本,購買費用和整個營運成本各不相同。ibm、oracle、rapidminer、teradata和微軟的産品根據不同級别劃分版本,許可證書費用與特性、功能、對分析資料的量或者産品可使用的節點數的限制成正比。knime和rapidminer提供免費或開源版本,對技術支援收費或者對企業級應用版本進行收費。相對而言,knime、rappidminer和alteryx對數量少的使用者收取的許可費用較低。你如果考慮sas和sap的産品,需要直接找他們詢價。

大資料分析軟體的市場可能讓人找不到北,但是我們希望,本系列采購指南文章能夠幫助你更好地了解大資料分析軟體能夠帶給企業什麼好處,幫助你更好地區分主流大資料分析産品和工具。

本文作者:佚名

來源:51cto