天天看點

十款卓越工具助力大資料與分析技術

資料已經成為現代化企業中最為重要的寶貴資源。一切決策、政策或者方法都需要依托于對資料的分析方可實作。随着“大資料分析”逐漸替代其上代版本,即“商務智能”,企業正面臨着一個更加複雜、且商業情報規模更為龐大的新時代。

考慮到現有技術解決方案的複雜性與多樣化,企業往往很難找到适合自己的大資料收集與分析工具。然而,混亂的時局之下已經有多種方案脫穎而出,證明其能夠幫助大家切實完成大資料分析類工作。下面我們将整理出一份包含十款工具的清單,進而有效壓縮選擇範疇。

十款卓越工具助力大資料與分析技術

  1. openrefine

這是一款高人氣資料分析工具,适用于各類與分析相關的任務。這意味着即使大家擁有多川不同資料類型及名稱,這款工具亦能夠利用其強大的聚類算法完成條目分組。在聚類完成後,分析即可開始。

2. hadoop

大資料與hadoop可謂密不可分。這套軟體庫兼架構能夠利用簡單的程式設計模型将大規模資料集分發于計算機叢集當中。其尤為擅長處理大規模資料并使其可用于本地裝置當中。作為hadoop的開發方,apache亦在不斷強化這款工具以提升其實際效果。

3. storm

同樣來自apache的storm是另一款偉大的實時計算系統,能夠極大強化無限資料流的處理效果。其亦可用于執行多種其它與大資料相關的任務,具體包括分布式rpc、持續處理、線上機器學習以及實時分析等等。使用storm的另一大優勢在于,其整合了大量其它技術,進而進一步降低大資料處理的複雜性。

4. plotly

這是一款資料可視化工具,可相容javascript、matlab、python以及r等語言。plotly甚至能夠幫助不具備代碼編寫技能或者時間的使用者完成動态可視化處理。這款工具常由新一代資料科學家使用,因為其屬于一款業務開發平台且能夠快速完成大規模資料的了解與分析。

5. rapidminer

作為另一款大資料處理必要工具,rapidminer屬于一套開源資料科學平台,且通過可視化程式設計機制發揮作用。其功能包括對模型進行修改、分析與建立,且能夠快速将結果整合至業務流程當中。rapidminer目前備受矚目,且已經成為衆多知名資料科學家心目中的可靠工具。

6. cassandra

apache cassandra 是另一款值得關注的工具,因為其能夠有效且高效地對大規模資料加以管理。它屬于一套可擴充nosql資料庫,能夠監控多座資料中心内的資料并已經在netflix及ebay等知名企業當中效力。

7. hadoop mapreduce

這是一套軟體架構,允許使用者利用其編寫出以可靠方式并發處理大規模資料的應用。mapreduce應用主要負責完成兩項任務,即映射與規約,并由此提供多種資料處理結果。這款工具最初由谷歌公司開發完成。

8. bokeh

這套可視化架構的主要目标在于提供精緻且簡潔的圖形處理結果,用以強化大規模資料流的互動能力。其專門供python語言使用。

9. wolfram alpha

這是一套搜尋引擎,旨在幫助使用者搜尋其需要的計算素材或者其它内容。舉例來說,如果大家輸入“facebook”,即可獲得與facebook相關的html元素結構、輸入解釋、web托管資訊、網絡統計、子域、alexa預估以及網頁資訊等大量内容。

10. neo4j

其官方網站将這款工具稱為圖形資料庫技術的下一場革命。這種說法在一定程度上并不誇張,因為此套資料庫使用資料間的關系以操作并強化性能表現。neo4j目前已經由衆多企業用于利用資料關系實作智能應用,進而幫助自身保持市場競争優勢。

本文轉自d1net(轉載)