天天看點

《Hadoop與大資料挖掘》——1.2 大資料平台

本節書摘來自華章計算機《hadoop與大資料挖掘》一書中的第1章,第1.2節,作者 張良均 樊哲 位文超 劉名軍 許國傑 周龍 焦正升,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

大資料平台有哪些呢?

一般認為大資料平台分為兩個方面,硬體平台和軟體平台。硬體平台一般如open-stack、amazon雲平台、阿裡雲計算等,類似這樣的平台其實做的是虛拟化,即把多台機器或一台機器虛拟化成一個資源池,然後給成千上萬人用,各自租用相應的資源服務等。而軟體平台則是大家經常聽到的,如hadoop、mapreduce、spark等,也可以狹義了解為hadoop生态圈,即把多個節點資源(可以是虛拟節點資源)進行整合,作為一個叢集對外提供存儲和運算分析服務。

hadoop生态圈大資料平台,可以大概分為3種:apache hadoop(原生開源hadoop)、hadoop distribution(hadoop發行版)、big data suite(大資料開發套件)。apache hadoop 是原生的,即官網提供的,隻包含基本的軟體;hadoop distribution是一些軟體供應商提供的,具有的功能相對多,這個版本有收費版也有免費版,使用者可選;而大資料開發套件則是一些大公司提供的內建方案,提供的功能更多,但是相應的也比較貴。

apache hadoop是開源的,使用者可以直接通路或更改代碼。它是完全分布式的,配置包含使用者權限、通路控制等,再加上多種生态系統軟體支援,比較複雜。這裡涉及版本不相容性問題。是以該版本比較适合學習并了解底層細節或hadoop詳細配置、調優等。

hadoop distribution版本簡化了使用者的操作以及開發任務,比如可以一鍵部署等,而且有配套的生态圈支援以及管理監控功能,如業内廣泛使用的hdp、cdh、mapr等平台。cdh是最成型的發行版本,擁有最多的部署案例,而且提供強大的部署、管理和監控工具,其開發公司cloudera貢獻了自己的可實時處理大資料的impala項目。hdp是100%開源apache hadoop的唯一提供商,其開發公司 hortonworks開發了很多增強特性并送出至核心主幹,并且hortonworks為入門者提供了一個非常好的、易于使用的沙盒。mapr為了擷取更好的性能和易用性而支援本地unix檔案系統而不是hdfs(使用非開源的元件),并且可以使用本地unix指令來代替hadoop指令。除此之外,mapr還憑借諸如快照、鏡像或有狀态的故障恢複之類的高可用性特性來與其他競争者相差別。當需要一個簡單的學習環境時,就可以選用這個版本,當然,針對一些企業也可以選擇這個版本的收費版,也是有很多軟體支援的。

big data suite(大資料套件)是建立在eclipse之類的ide之上的,其附加的插件極大地友善了大資料應用的開發。使用者可以在自己熟悉的開發環境之内建立、建構并部署大資料服務,并且生成所有的代碼,進而做到不用編寫、調試、分析和優化mapreduce代碼。大資料套件提供了圖形化的工具來為你的大資料服務進行模組化,所有需要的代碼都是自動生成的,隻需配置某些參數即可實作複雜的大資料作業。當企業使用者需要不同的資料源內建、自動代碼生成或大資料作業自動圖形化排程時,就可以選擇使用大資料套件。