天天看點

Hadoop 怎麼了,大資料路在何方

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

近期 Hadoop 消息不斷,衆說紛纭。本文以 Hadoop 的盛衰變化為楔子聊下大資料分析的發展現狀和未來趨勢。

15 秒鐘簡縮版:

(1).Hadoop

  • 巅峰已過,正在成為遺留系統
  • Hadoop 和分布式資料庫在同一個賽道上,Hadoop 在這個賽道上目前并無優勢

    (2).大資料

  • 大資料市場是 SQL 市場,是分布式資料庫市場
  • 基礎分析如 BI、互動查詢等技術已經成熟
  • 進階分析(機器學習)下沉,向資料庫内嵌分析方向發展
  • 進階分析(機器學習)主要問題不在分析而在資料本身

1. Hadoop 巅峰已過幾多年,正在成為遺留系統

自 2015 年開始 Hadoop 暴露出諸多問題引起注意。随後 Gartner、IDG 等公司分析師、Hadoop 使用者和 Hadoop 和大資料圈内人士越來越多的反映出各種問題。

究其原因,主要如下:

  • Hadoop 棧過于複雜,元件衆多,內建困難,玩轉代價過高
  • Hadoop 創新速度不夠(或者說起點過低),且缺乏統一的理念和管控,使得其衆多元件之間的內建非常複雜
  • 受到 Cloud 技術的沖擊,特别是類 S3 對象存儲提供了比 HDFS 更廉價、更易用、更可伸縮的存儲,撬動了 Hadoop 的根基 HDFS
  • 對 Hadoop 期望過高,Hadoop 發迹于廉價存儲和批處理,而人們期望 Hadoop 搞定大資料所有問題,期望不比對造成滿意度很低
  • 人才昂貴,且人才匮乏

Hadoop 巅峰已過成為行業事實,本文不打算在這個問題上繼續論證。有興趣的讀者可以參考網上的諸多評論,甄選了一些筆者覺得有參考價值或沾邊的文章羅列如下(從标題可以感覺到濃厚的蕭瑟之氣):

  • Hadoop 還有沒有前途?Hadoop 發展曆史和未來方向解讀
  • Hadoop 氣數已盡:逃離複雜性,擁抱雲計算
  • 超越雲計算:對資料庫管理系統未來的思考
  • Big Data Is Still Hard. Here’s Why
  • Big Data Will Get By (but only with a little help from its friends)
  • Cloudera and Hortonworks merger means Hadoop’s influence is declining
  • From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation
  • Hadoop is Dead. Long live Hadoop (中文翻譯:Hadoop 已死,Hadoop 萬歲)
  • Hadoop Has Failed Us, Tech Experts Say
  • Hadoop Past, Present, and Future
  • Hadoop: Past, present and future(又一個)
  • Hadoop runs out of gas
  • Hadoop Struggles and BI Deals: What’s Going On?
  • Hitting the Reset Button on Hadoop
  • Is Hadoop officially dead
  • Mike Olson on Zoo Animals, Object Stores, and the Future of Cloudera
  • More turbulence is coming to the big-data analytics market in 2019
  • Object and Scale-Out File Systems Fill Hadoop Storage Void
  • The Decline of HADOOP and Ushering An Era of Cloud
  • The elephant’s dilemma: What does the future of databases really look like?
  • The Future of Database Management Systems is Cloud!
  • The history of Hadoop
  • Why is Hadoop dying?

Ok,如果你和我一樣,把上面所有文章都讀了一個遍,說明你确實對這個問題很感興趣。發郵件

給我(yyao AT pivotal DOT io),請你喝酒細聊 ;)

Hadoop 是否還能重振雄風?Hadoop 若要重回大資料的中心,需要的是信心和時間,然而現在 Hadoop 最缺的恰恰是信心和時間。業界已經給了 Hadoop 十多年的時間,不管什麼原因,Hadoop 沒有很好的解決大資料的問題,甚至沒有很好的解決大資料的基本問題。人們很難相信再給它十年時間就可以搞定。随着問題暴露面越來越廣,業界對 Hadoop 的信心逐漸大幅下滑。同樣緊要的是,和十多年前沒有選擇不同,現在業界有多種大資料方案(特别是開源方案)可供選擇。

然而這并不意味着 Hadoop 會消失,經過十多年的發展,現在全球部署有很多 Hadoop 叢集,這些遺留資産及其衍生需求會持續相當一段時間。Hadoop 的根基 HDFS 受到對象存儲挑戰,在公有雲上已經敗下陣來,在企業内部暫時會保住守勢,然而随着雲廠商進入企業級市場,很快也會面臨極大挑戰。Hadoop 也在向對象存儲發展,将來或許有望成為多種對象存儲解決方案中的一個候選項,然而可以肯定的是 Hadoop 不再是讨論的中心。

HortonWorks 聯合創始人、CPO,現任 Cloudera CPO Arun C Murthy 于 2019 年 9 月 10 日發文表示: The old way of thinking about Hadoop is dead — done, and dusted. Hadoop as a philosophy to drive an ever-evolving ecosystem of open source technologies and open data standards that empower people to turn data into insights is alive and enduring. (來自微信公衆号的譯文:你所認為的傳統的 Hadoop 已經死了,确實如此。但 Hadoop 作為一門哲學,推動不斷發展的開源技術生态系統和開放資料标準,使人們能夠将資料轉化為洞察力,這門哲學是充滿活力和持久的。)

“形而上者謂之道,形而下者謂之器”。無器以為載體,則坐而論道。

2. Hadoop 市場是資料倉庫市場,然而在這個市場裡目前并不占優勢

首先捋一下 Hadoop 幾個主要元件的發展脈絡。

Hadoop 怎麼了,大資料路在何方
  • Apache Nutch 是 Hadoop 一哥 Doug Cutting 寫的開源網頁爬蟲。為了存儲海量網頁,Nutch 需要一個分布式存儲層。受 Google GFS 論文的啟發,Doug 設計了一個開源 GFS 實作,成為後來的 HDFS。相比于當時昂貴的磁盤陣列和 SAN,HDFS 提供了廉價、高可靠且可擴充的存儲;

    分布式存儲層解決後,Nutch 需要能适應分布式環境的并行計算模型。受 Google MapReduce 論文的啟發,Doug 設計了開源版的 - - - - - -MapReduce。HDFS 和 MapReduce 解決了大資料的存儲和計算問題,受到當時受困于大資料問題的大型網際網路公司的追捧,很快 Hadoop 吸引了大量的開發者,成為 Apache 頂級項目;

Hadoop 解決了有無問題。很快人們發現 MapReduce 複雜度很高,即使技術實力強大如 Facebook 都很難寫出高效正确的 MapReduce 程式。此外除了解決批處理問題,人們需要 Hadoop 能解決其遇到的互動式查詢任務。為此,Facebook 開發了 Hive,該項目快速流行起來,到現在還有很多使用者。Facebook 當時更是高達 95% 的使用者使用 Hive 而不是裸寫 MapReduce 程式。

由于 Hadoop 不是為互動式處理而設計,Hive 效率低,并發度也低。此外 Hive 不支援标準 SQL,使得和其他産品的內建困難重重。為此 - Cloudera 開發了 Impala。Impala 實際上是一款分布式 MPP(大規模并行處理)資料庫。

從上面的發展脈絡可以清楚的看出,Hadoop 從分布式存儲和并行計算模型開始,逐漸發展成了 MPP 資料庫,而 MPP 資料庫做為成熟資料倉庫解決方案已經發展了三十多年。可見 Hadoop 市場主要是 SQL 市場。然而 Hadoop 和其他經典 MPP 資料庫相比,從性能、SQL 相容性、擴充性等各個方面來看,Hive、Impala 等并不占優勢。Gartner 2019 年釋出的資料分析市場排名,Hadoop 三大發行商排名都在十名以外(前三名是 Teradata、Oracle 和 Greenplum)。

Hadoop 怎麼了,大資料路在何方

從市場角度也印證了這一說法:Cloudera 官方表示其收入的 75% 來自于 SQL 産品。最近(2019 年 9 月 4 日)Cloudera 宣布收購 AI 驅動的雲原生 BI 廠商 Arcadia Data,印證了 Hadoop 市場領頭羊 Cloudera 發力的發展方向。上文中提到的 Cloudera CPO 也公開指出:“For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company.”

3. 大資料分析市場目前是 SQL 市場

大資料分析包括兩個層面,第一個層面是基本分析,第二個層面是進階分析。

基本分析層面涉及的主要應用和場景為 BI、互動查詢、可視化等場景。這些場景使用的主流核心技術是 SQL,BI 等産品的基本玩法是 SQL+ 圖形使用者界面(UI)。和此相關的主要 SQL 特性是分組(group by)和聚集(aggregation)、視窗(window)函數、資料立方格(Cube)等。這些 SQL 功能背後的主要計算基本都是國小數學中的加減乘除,看起來高大上的“大資料分析”大都是些國小數學的東西,當然對海量資料進行這些分組加減乘除且保證 ACID 特性是很有挑戰性的。諸如 Greenplum、Vertica 之類的分布式 MPP 資料庫已經很好的解決了這些問題。

進階分析層面涉及到諸如機器學習、模式識别、AI 等複雜算法的采用。目前這一層面有下沉到資料庫内部的趨勢。Apache MADLib 是最早引領這一趨勢的成熟商業産品。2017 年谷歌釋出了 BigQuery ML 亦是基于 SQL 的進階分析方案。對此感興趣的請參見資料庫内建分析介紹一文。

從大資料分析的兩個層面來看,其核心均為 SQL。對更多這方面資訊感興趣,以及對資料處理平台演進曆史和其原動力感興趣的朋友,可參考 Greenplum 中文社群資料下載下傳頁面的《2. 資料處理平台之演進》和《3. 大資料≈分布式資料庫》。

4. 進階資料分析之難點不在分析而在資料本身

如果你有足夠多整潔的資料,那麼進階資料分析對你而言不是問題。

這裡“足夠多”不一定意味着 PB 級海量資料,僅指可以滿足需求的資料量,不同場景需求不同,從 MB 到 GB 到 PB 級不等。進階資料分析不一定需要大資料,現在還廣為使用的商業分析産品如 SAS、 SPSS 都是單節點的,可處理資料量大不到那裡去。

大量的研究也證明,即使所用算法不變,資料量越大,模型的精度也會更好,結果準确度也越好。因而盡量使用更多資料,使用全量資料而不是抽樣成為提升精度的首要手段。

“整潔”意味着資料是标準的、準确的。然而現實卻遠非如此。不準确的資料會造成進階分析結果的嚴重偏差。

資料工程師和資料科學家面臨着資料發現、資料內建和資料清洗等大量複雜問題。為了解決這些問題,資料科學家需要花費大量時間去整理資料而不是分析資料。大量報到表明,資料科學家花費至少 70% 以上的時間進行資料發現、內建和清洗工作。iRobot 上一位資料科學家甚至表示:“我 90% 的時間用于發現和清洗資料,剩餘 10% 時間中的 90% 用于糾正清洗過程中的錯誤”。這或許有些誇張,然而資料庫科學家的主要工作内容可見一斑。如何提高資料工作者這方面的效率是目前國内外非常活躍的投資領域。

總結

綜上,作為第一代大資料方案的 Hadoop 巅峰已過,大資料進入第二代:分布式資料庫。

分布式資料庫特别是 MPP 資料庫已經很好的解決了大資料基本分析層面的問題,未來持續向着更易用更快的方向發展。

進階資料分析向着下沉到資料庫内部的方向發展。進階資料分析層面的難點不在分析,而在于資料本身的數量和品質。期待這一方面有更多創新湧現。

作者簡介:

姚延棟,紐交所上市企業 Pivotal 全球研發總監,中國研發中心副總經理,Greenplum 中文社群創始人。在中國和 Pivotal 中國 MD 聯合建立了 Pivotal 中國研發中心,培養了一支世界頂級的資料庫核心開發團隊,用時十年把 Greenplum 發展為世界排名第三的分析型資料庫( Gartner 2019 ),成為大資料和機器學習領域意見領袖。在建立 Greenplum/Pivotal 中國之前, 曾在 Sun Microsystem 與 Symantec 系統和存儲部門工作多年。于 2005 年畢業于中科院軟體所, 擁有多項國内外雲計算和大資料專利,并著有《Greenplum:從大資料戰略到實作》。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-05-12

本文作者:姚延棟

本文來自:“

InfoQ

”,了解相關資訊可以關注“