Hadoop之後：大資料的未來

zdnet至頂網伺服器頻道 04月03日：在實時資料世界裡，為什麼我們還這麼執着于hadoop?根據451 research調查資料顯示，圍繞批處理架構的hadoop仍然是大資料[注]的代表技術，盡管其聲譽仍然超過實際部署情況。

還沒有真正部署hadoop的企業可能想要再等一等。而随着apache spark等其他技術(storm、kafka等)的出現，我們似乎與hadoop的批處理漸行漸遠，逐漸轉向實時資料的未來。

批處理不是重點

cloudera的doug cutting是一個非常聰明的人，也是開源開發人員，hadoop、lucene等大資料工具的開發都有他的功勞。

雖然cutting承認實時流媒體技術的重要性，但他并沒有否認面向批處理的hadoop的價值，他表示：并不是因為我們覺得批處理是最好的，是以hadoop圍繞批處理而建構。批處理(特别是mapreduce)很自然是第一步，因為它相對容易部署，并提供很重要的價值。在hadoop之前，沒有辦法使用開源軟體在商品硬體存儲和處理千兆位元組。hadoop的mapreduce是很大的進步。我們很難說清楚大資料的商品化對這個世界的重要性。這并不是說在hadoop之前我們沒有存儲和分析大量資料，而是hadoop讓我們非常廉價地實作這個過程。

總之，hadoop民主化了大資料。

轉向流資料?

然而，hadoop并沒有讓大資料分析變得容易。正如datastax首席布道者patrick mcfadin表示，從企業資料挖掘價值并沒有那麼簡單：我們都聽說過存儲和分析pb級資料的投資回報率的問題。谷歌、雅虎和facebook都在從中創造驚人的價值，而大部分企業都在試圖研究如何分析所有資料，第一：收集所有資料;第二：解析所有資料;第三：利潤!在資料收集和利潤之間有很多麻煩的步驟。随着企業試圖加快對實時資料的分析能力，新技術為他們提供了可能。

mcfadin發現了這個新大資料堆棧的關鍵要素。首先是一個排隊系統，kafka、rabbitmq和kinesis等。然後是流處理層，這可能包括storm、spark streaming或者samza。對于高速存儲，企業經常轉向cassandra、hbase、mongodb或者mysql等關系型資料庫。

最有趣的是批處理仍然有用武之地。mcfadin表示，批處理現在可用于處理，即彙總和更深入的分析。批處理和實時的融合被稱為“lambda架構”，這涉及讓三個元素和諧地共處：批處理、速度和服務。

換句話說，批處理仍然有用。

淘汰批處理

但并不是每個人都同意。zoomdata公司首席執行官和聯合創始人justin langseth認為lambda是“不必要的”，并稱，“現在有端到端工具可以從采購、運輸、存儲到分析和可視化來處理資料，而不需要批處理”。在他看來，批處理是大資料過去的遺留物：實時資料顯然最好應該作為流來處理，而且還可以加載曆史資料，正如你的dvr可以加載電影《飄》或者上周的電視節目《美國偶像》到你的電視。這種差別很重要，zoomdata認為将資料作為流來分析可以增加可擴充性和靈活性，而無論資料是實時還是曆史資料。

然而，超越可擴充性和靈活性好處的可能是将批處理從大資料過程移除所帶來的簡單性。langseth認為，“當你不需要擔心批處理視窗以及從批處理故障中恢複時，這可以極大地簡化大資料架構。”

流分析取代hadoop?

cutting稱，還沒有那麼快，cutting認為未來hadoop等技術并不會完全被淘汰，流分析會得以發展，cloudera的enterprise data hub也是一樣。事實上，他不認為會廣泛轉向流分析，而是為大家帶來了又一種選擇。

更有趣的是，大資料的大爆炸會讓行業催生出一些好方法來應對資料處理。

我認為我們不會再那麼頻繁地看到spark這樣的主要技術增加，随着時間的推移，我們将會标準化這些工具，為大多數人提供功能來滿足其大資料應用需求。hadoop帶來了技術爆炸，但我們可能會進入比較正常的演化過程，在各行業廣泛使用這些技術。

datastax社群經理scott hirleman同意說：“批處理并不會消失，總是會需要對大量資料的大規模分析。”現在大家對流分析有極大的興趣，但稱現在還不清楚這種趨勢對大資料計劃的影響。

總之，流分析完全是關于“和”，而不是“或者”，這是對圍繞批處理系統(例如hadoop)的很好的補充，但這肯定不會完全取代hadoop。

原文釋出時間為：2015年04月03日

本文來自雲栖社群合作夥伴至頂網，了解相關資訊可以關注至頂網。

Hadoop之後：大資料的未來

繼續閱讀

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark