天天看點

Spark取代Hadoop?看看Hadoop之父Doug Cutting 怎麼說

Doug Cutting 預言了Hadoop将不斷向前發展,以及預言了圍繞hadoop生态系統的産生的機遇。

Hadoop經過10年的發展,如今Hadoop生态系統非常龐大,同時一直在改進。InfoWorld 的 Andy Oliver就目前的情況,“關于Hadoop你需要知道的最重要的一件事是以後再也沒有Hadoop了”—至少,不再是以前我們熟知的Hadoop了。

Hadoop的共同創造者Doug Cutting(如今在Cloudera),他認為這個改變不僅是作為一個正面的改進,而且是作為對Hadoop開源的來源和設計的證明。

在與InfoWorld電話交談時,Cutting提到“許多開源項目形成的松散聯盟也能實作根本性的革命。”在這個聯盟裡,市場決定了哪些元件将會被使用。

随着時間的流逝,Hadoop生态系統的單個部分已經發展超出Hadoop本身的範圍。正如以下這個例子:Spark,作為實時資料處理架構,已經發展成為獨立運作的支援者。

Spark取代Hadoop?看看Hadoop之父Doug Cutting 怎麼說

Hadoop之父Doug Cutting

但是,Cutting認為Hadoop的其他功能可以實作很多Spark目前仍做不到的事情。他說:“Spark是一款很棒的執行引擎,我們可以看到大部分的Spark應用,是作為Hadoop分布式檔案系統HDFS的上層應用。”( Spark 典型的取代了已經過時的MapReduce引擎,與Hadoop YARN (Yet Another Resource Negotiator,另一種資源協調者)或者分布式計算架構Mesos一起工作,有時候同時與兩者一起作為一個計劃進行)

但是Cutting強調:“還有許多事情Spark是做不到的。”比如:它不是一個全文本搜尋引擎;是Solr在Hadoop裡扮演着這個角色。它可以運作SQL查詢對抗Spark,但是它沒有被設計成一個互動式查詢系統,對此,Cutting提出,Impala可以實作互動查詢。

如果你隻是要需要進行streaming 程式設計或者batch 程式設計,那麼你需要一個執行引擎,Spark就是很棒的一個。但是人們想做的事情遠不止于此,他們想實作互動式SQL(結構化查詢語言),他們想實作搜尋,他們想做各種涉及系統的實時處理,如Kafka(一種高吞吐量的分布式釋出訂閱消息系統)…我認為那些認為Spark就是整個堆的人是确實存在的少數情況。

随着時間流逝不得已做出了另外一個改變—針對安全問題。創造Hadoop的靈感來源于Yahoo 的内部工具,是以Hadoop起初沒有考慮完全問題,尤其是不具備企業級産品細化RBAC(基于角色的通路控制,Role-Based Access Control)類型的安全保障條件。Cutting說:“人們建立Web搜尋引擎,并嘗試通過設定防火牆提高安全性。”但是他提出,現在Hadoop的細粒度是足夠的,并針對表或者表中單元格,已經使ACLs(通路控制清單,Access Control List) 成為Hadoop的一部分。

Hadoop的革命,它對于系統中已經存在的資料保護有什麼含義?Cutting說:“我們已經看到了,而且很多。因為人們在投入某物進行生産之前,存儲資料之前,他們被要求組織起來解決資料的安全問題。而且在建構他們的保護措施的時候,在這之上已經有了一個限制器。”現在Hadoop已經擁有越來越多的安全特性,Cutting說:“它可以在更多的地方被使用了”

Cutting提到關于Hadoop應用的另外兩個限制器:使用者的技能,以及企業建立系統的工作效率。Cutting說:“不是每個人都能在工具開發上跟的上步伐,對于企業而言,他們主要運作的是既有系統,每年不需要重寫任何東西,是以做那些事情是很費時間的。”

盡管面臨這些困難,但是Cutting對Hadoop生态系統内部源源不斷的活力将會令系統保持健康充滿信心。由Cloudera開發的Kudu檔案系統融合了HDFS與HBase的功能特征。“Kudu檔案系統展示了生态系統是如何演變的。”Cutting補充。

雖然Kudu具備技術上的透明,也被一些Cloudera客戶使用進行生産。但是Cutting也提出Kudu已經被其他Hadoop引擎整合,包括Apache Drill(不屬于Cloudera )。

“其他人已經選擇并擁抱kudu,選擇它是明智的,在某種意義上,它是一款有趣的工具”。

本文作者Serdar Yegulalp是InfoWorld的資深記者,關注InfoWorld技術觀察新聞分析部落格和定期評論。本文譯自InfoWorld

來源:36大資料  http://www.36dsj.com/archives/41847的轉載均為侵權。