天天看點

大資料開發需要哪些工具?大資料開發必備工具彙總

大資料研究的出現,為企業、研究機構、政府決策提供了新的行之有效思路和手段,想要做好大資料的管理和分析,一些大資料開發工具的使用是必不可少的,以下是大資料開發過程中常用的工具:

1. Apache Hive

Hive是一個建立在Hadoop上的開源資料倉庫基礎設施,通過Hive可以很容易的進行資料的ETL,對資料進行結構化處理,并對Hadoop上大資料檔案進行查詢和處理等。 Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的使用者查詢資料提供了友善。

2. Apache Spark

Apache Spark是Hadoop開源生态系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴于自己的資料處理架構而不是依靠Hadoop的HDFS服務。同時,它還用于事件流處理、實時查詢和機器學習等方面。

3. Jaspersoft BI 套件

Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業上司者發現Jaspersoft軟體是一流的, 許多企業已經使用它來将SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連接配接配置單元來替代HBase。

4. Keen IO

Keen IO是個強大的移動應用分析工具。開發者隻需要簡單到一行代碼, 就可以跟蹤他們想要的關于他們應用的任何資訊。開發者接下來隻需要做一些Dashboard或者查詢的工作就可以了。

5. Mortar Data

Mortar Data是專為開發者打造的Hadoop開發平台,它用Pig和Python的組合替代了MapReduce以便開發者能簡單地編寫Hadoop管道(Pipeline)。

6. Placed Analytics

利用腳本語言以及API, PlacedAnalytics能夠提供針對移動和網絡應用的詳細使用者行為分析。包括, 使用者使用時間和地理位置資訊。 這些可以幫助開發者的應用更好地吸引廣告商, 也可以幫助開發者對自己的應用進行改善。

7. Ingres Corp

它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實作了擴充。這些發展分别導緻了Actian Vector和Actian Matrix的建立。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。

8. Talend Open Studio(常用的ETL平台)

Talend是一個統一的平台,它通過提供一個統一的,跨企業邊界生命周期管理的環境,使資料管理和應用更簡單便捷。這種設計可以幫助企業建構靈活、高性能的企業架構,在次架構下,內建并啟用百分之百開源服務的分布式應用程式變為可能。

9. Cloudera

Cloudera正在努力為開源Hadoop,提供支援,Hadoop可以作為目标資料倉庫,高效的資料平台,或現有資料倉庫的ETL來源。企業規模可以用作內建Hadoop與傳統資料倉庫的基礎。Cloudera緻力于成為資料管理的“重心”。

10. Pentaho Business Analytics

Pentaho的工具可以連接配接到NoSQL資料庫,有很多内置子產品,可以把它們拖放到一個圖檔上, 然後将它們連接配接起來。

工具的熟練使用可以起到事半功倍的效果,以上僅僅是一些資料開發過程中常用的工具,對于大資料開發人員來說是需要熟練掌握的,當然,大資料開發過程中也會需要借助一些其他的工具,這就需要大資料開發人員具有發現和解決問題的能力,以及養成善于積累的習慣!

想進一步了解大資料技術,請加V信:壹壹伍貳七一八壹叁叁(改為數字添加好友即可)

不管男女,盡情來撩